Tegenwoordig is kunstmatige intelligentie overal. De meerderheid van de grote technologiebedrijven heeft kunstmatige intelligentie omarmd, hetzij door hun eigen modellen te creëren, hetzij door modellen van derden in hun diensten of nieuwe functies op te nemen. Meta, een van de grote spelers in de sector, heeft een nieuw AI-model “Self-Taught Evaluator” aangekondigd dat tot doel heeft andere AI-modellen autonoom te evalueren en te trainen.
Een van de grootste problemen bij het ontwikkelen van AI-modellen zijn de daaraan verbonden kosten. In de huidige stand van zaken in de sector zijn grote investeringen nodig om de achterstand in te halen en concurrerend te blijven. Bovendien gebruiken ontwikkelaars tijdens het trainingsproces een techniek die bekend staat als “Reinforcement Learning from Human Feedback” (RLAIF). Zoals de naam al doet vermoeden vereist RLAIF menselijke participatie, wat het proces kan vertragen. Dat gezegd hebbende, wil Meta’s nieuwe Self-Taught Evaluator een dergelijke vereiste elimineren.
Meta’s Self-Taught Evaluator AI-model kan andere AI’s trainen en evalueren zonder menselijke tussenkomst
RLAIF maakt gebruik van menselijke experts om ervoor te zorgen dat de AI in ontwikkeling solide en betrouwbare antwoorden geeft. Het maakt immers niet uit hoe krachtig een AI is als deze een hoog foutenpercentage heeft. Menselijke partijen moeten er ook voor zorgen dat de data die worden gebruikt voor het AI-trainingsproces feitelijk correct zijn. Dit verhoogt niet alleen de ontwikkelingstijden, maar ook de bijbehorende kosten.
Meta’s Self-Taught Evaluator-model is echter in staat andere AI-modellen te evalueren en te trainen. Om dit te bereiken maakt Self-Taught Evaluator gebruik van de ‘chain of thought’-techniek die OpenAI in de o1-modellen heeft geïmplementeerd. Deze techniek is gebaseerd op het aanpakken van complexe problemen door ze in kleinere logische stappen te verdelen. Dit resulteert in nauwkeurigere antwoorden op geavanceerde gebieden zoals wetenschap, coderen en wiskunde.
In feite heeft Meta het Self-Taught Evaluator-model zelf ontwikkeld met behulp van de chain of thought-techniek. Ze gebruikten gegevens die puur door AI waren gegenereerd om deze te trainen. “We hopen dat, naarmate AI steeds bovenmenselijker wordt, het steeds beter zal worden in het controleren van zijn werk, zodat het daadwerkelijk beter zal zijn dan de gemiddelde mens”, zegt Jason Weston, een van de betrokken onderzoekers.
Een potentiële toekomst vol autonome AI’s plagen
AI die zelfstandig kan leren en evalueren, zonder menselijke tussenkomst, klinkt als een futuristisch concept dat rechtstreeks uit een sciencefictionfilm komt. Recente ontwikkelingen suggereren echter dat we misschien niet ver verwijderd zijn van zoiets als dit. AI-experts suggereren dat de implementatie van dergelijke modellen op verschillende gebieden de menselijke tussenkomst grotendeels zou kunnen elimineren.