Waarom zelfs geavanceerde AI faalt Basislogica: nieuwe onderzoeksresultaten

Als je een moderne AI ziet optreden, kan het lijken alsof je getuige bent van een goocheltruc. Of het nu Gemini, ChatGPT of Claude is, deze modellen projecteren vaak een aura van bijna oneindige wijsheid, waarbij ze complexe codeerproblemen oplossen of binnen enkele seconden poëzie schrijven. Uit nieuw onderzoek van wetenschappers van Stanford, Caltech en Carleton College blijkt echter dat er onder het briljante oppervlak van het AI-model een aantal verrassend diepe scheuren schuilgaan die ervoor zorgen dat zelfs de basislogica faalt.

Uit het onderzoek blijkt dat zelfs de meest geavanceerde grote taalmodellen (LLM’s) vaak falen in basistests voor redeneren waar een jong kind doorheen zou kunnen (via Popular Mechanics). We behandelen deze systemen vaak alsof ze ‘denken’. De realiteit is echter dat ze gebaseerd zijn op complexe wiskunde en patronen die met elkaar verbonden zijn. Door deze aanpak kunnen ze het volgende woord in een zin met verbazingwekkende nauwkeurigheid raden, maar dat betekent niet dat ze de logica achter wat ze zeggen echt ‘begrijpen’.

AI mist de ‘Theory of Mind’ van menselijke hersenen, wat ertoe leidt dat logische wiskunde mislukt

Een van de meest interessante onderdelen van het onderzoek heeft te maken met sociale intelligentie. Mensen leren sociale regels en morele nuances door jarenlange subtiele ervaringen uit de echte wereld. AI daarentegen beschikt niet over wat wetenschappers een ‘Theory of Mind’ noemen. Dit betekent dat deze modellen moeite hebben om af te leiden wat iemand denkt of om gedrag te voorspellen op basis van ethische regels. De onderzoekers zeggen dat AI niet klaar is voor het nemen van belangrijke beslissingen die een menselijk oordeel vereisen vanwege het ontbreken van een betrouwbaar moreel kompas.

Het falen strekt zich ook uit tot de wereld van de wiskunde en de formele logica. Je zou toch verwachten dat een computer perfect is in wiskunde? Welnu, uit het onderzoek blijkt dat LLM’s worstelen met ’triviale’ logica, zoals het begrijpen dat als A gelijk is aan B, B ook gelijk moet zijn aan A. Ze hebben ook last van vooroordelen, zoals het geven van veel te veel belang aan het eerste item in een lijst. Dit weerspiegelt menselijke fouten, maar zonder ons natuurlijke vermogen om te beseffen wanneer iets ‘niet goed’ voelt.

Zelfs fysiek redeneren vormt een uitdaging. Wanneer hen wordt gevraagd taken in een driedimensionale ruimte te plannen of robotbewegingen te beheren, verliezen de modellen het plan vaak uit het oog als de opdracht iets anders wordt geformuleerd. Dit toont aan dat de AI vertrouwt op datapatronen op de korte termijn in plaats van op een solide langetermijninzicht in hoe de fysieke wereld werkt.

Een noodzakelijke analyse om AI echt te begrijpen

Ondanks deze bevindingen suggereren de wetenschappers niet dat AI een mislukking is. In plaats daarvan beschouwen ze deze kwetsbaarheden als een noodzakelijke routekaart voor de toekomst. Het identificeren van waar de technologie breekt, is de eerste stap in de richting van het bouwen van veerkrachtiger systemen. Net zoals het vroege computergebruik een rigoureuze foutanalyse vereiste om betrouwbaar te worden, moet de huidige AI hetzelfde onderzoek ondergaan om verder te gaan dan een “pittige autocomplete” te zijn en een werkelijk intelligente partner te worden. De AI-systemen van een paar jaar geleden hebben immers niets te maken met de huidige.

Het gaat hier niet om sceptisch zijn en voortdurend roepen ‘AI is slecht’, maar om het onderkennen van de huidige beperkingen van de technologie. Precies weten wat onze tools wel en niet kunnen doen, is van fundamenteel belang voor een correct gebruik ervan. In principe is het dezelfde aanpak die we hanteren met onze real-world tools. Dus waarom zouden we dat gedrag niet spiegelen aan onze ‘digitale partners’?

Thijs Van der Does