We hebben de beschikbare gegevens voor AI-training uitgeput, zegt Elon Musk

Het is nog niet zo lang geleden dat kunstmatige intelligentie de technologie-industrie overnam. ChatGPT heeft een revolutie teweeggebracht die in slechts een paar jaar enorme vooruitgang heeft gebracht. Gedurende die tijd hebben op AI gerichte bedrijven openbaar beschikbare gegevens gebruikt om hun modellen te trainen. Sommige prominente figuren in het veld, zoals Elon Musk, zijn echter van mening dat de industrie alle beschikbare gegevens voor AI-training heeft uitgeput.

Elon Musk en andere experts zeggen dat de industrie de AI-trainingsgegevens heeft uitgeput

Het trainen van complexe AI-modellen vereist enorme hoeveelheden gegevens. Velen denken misschien dat het bedrijven veel tijd zou kosten om alle beschikbare gegevens ter wereld te gebruiken. Deskundigen beweren echter dat het moment nabij is. Ilya Sutskever, voormalig hoofdwetenschapper van OpenAI, nam in december deel aan de op machine learning gerichte NeurIPS-conferentie. Tijdens het evenement stelde Sutskever dat de AI-industrie de zogenaamde “piekgegevens.”

Dit betekent dat we volgens de wetenschapper praktisch de top hebben bereikt als het gaat om het gebruik van data om AI te trainen. Er zijn nog maar heel weinig ongebruikte gegevens over, wat een paradigmaverschuiving in de ontwikkeling van AI-modellen zal forceren. In lijn daarmee zei Elon Musk tijdens een livestreamgesprek met Stagwell-voorzitter Mark Penn: “we hebben nu feitelijk de cumulatieve som van menselijke kennis uitgeput … in AI-training.”

Musk is eigenaar van xAI, de divisie van X (FKA Twitter) die zich richt op AI-ontwikkeling. Grok, een door AI aangedreven chatbot en beeldgenerator ingebouwd in X, is het populairste product van het bedrijf. Musk beweert dat de industrie op basis van zijn ervaring op AI-gebied de “piekgegevens” genoemd door Sutskever “eigenlijk vorig jaar.”

Het gebruik van synthetische data zou de oplossing kunnen zijn, maar met nuances

Dat gezegd hebbende, er is een manier om nieuwe gegevens te verkrijgen voor AI-training. Sommige grote AI-bedrijven gebruiken al een tijdje synthetische data als onderdeel van het trainen van hun eigen modellen. Synthetische data zijn in feite gegevens die door andere AI-modellen worden gegenereerd. “De enige manier om (real-world data) aan te vullen is met synthetische data, waarbij de AI (trainingsdata) creëert.” zei Musk. “Met synthetische data … (AI) zal zichzelf een soort beoordeling geven en dit proces van zelfleren doorlopen”, voegde hij eraan toe.

Onderzoeks- en adviesbureau Gartner schat dat in 2024 60% van de data die worden gebruikt voor op AI gebaseerde ontwikkelingen synthetisch was. De lijst bevat projecten zoals Microsoft’s Phi-4, Google’s Gemma, Sonnet’s Claude 3.5 en zelfs Meta’s Llama.

Dat gezegd hebbende, moeten ontwikkelaars voorzichtig zijn als ze dit soort gegevens op grote schaal gebruiken. Overmatige inzet van synthetische data kan leiden tot meer vertekening, waardoor de creativiteit van het model afneemt. Dit kan de kwaliteit van de output van een AI-platform beïnvloeden. Aan de andere kant levert het gebruik van synthetische data enorme kostenbesparingen op.