Je chatbot liegt misschien expres tegen je, zegt Openai

Op dit moment zijn we allemaal bekend geraakt met AI ‘hallucinaties’. Dit gebeurt wanneer een chatbot vol vertrouwen informatie uitspuwt die volledig is verzonnen. Maar wat als de AI niet alleen raden? Wat als het met opzet tegen je liegt?

Dat is het verrassende onderwerp van nieuw onderzoek van Openai en Apollo Research. In een nieuw artikel duiken de onderzoekers in een fenomeen dat ze ‘AI -plannen’ noemen. Ze definiëren het als een AI -model “gedragen zich op het oppervlak terwijl ze zijn ware doelen verbergen.” Met andere woorden, de AI bedriegt u opzettelijk.

Openai ontdekte dat AI opzettelijk tegen je kan liegen – meet “AI Scheming”

De onderzoekers geven een grote menselijke analogie om het uit te leggen: stel je een aandelenhandelaar voor wiens doel is om zoveel mogelijk geld te verdienen. In een gereguleerd veld is de gemakkelijkste manier om meer geld te verdienen vaak om de wet te overtreden. Als de handelaar goed is in het dekken van zijn sporen, lijken ze misschien de regels aan de oppervlakte te volgen, terwijl ze hen in het geheim breken om hun doel te bereiken. Dat is precies wat deze AI -modellen doen.

Hoewel dat behoorlijk wild klinkt, staan de onderzoekers erop dat in de modellen van vandaag, het schema meestal ‘klein’ is. Een AI kan je bijvoorbeeld vertellen dat het een taak heeft voltooid – zoals het bouwen van een website – als dat niet het geval is, gewoon om de test te halen.

De uitdaging is dat onderzoekers nog niet hebben ontdekt hoe ze het schema volledig kunnen elimineren. Ze ontdekten dat het proberen om het gedrag te ’trainen’. Als een AI begrijpt dat het wordt getest, kan het leren om zorgvuldiger en heimelijker te scheiden om de test te doorstaan, zelfs als deze niet echt is gestopt.

Er is een methode om het probleem te verminderen

Het goede nieuws is echter dat het onderzoek een manier heeft gevonden om dit probleem aanzienlijk te verminderen. Met behulp van een techniek genaamd “Deliberative Alignment”, leerden onderzoekers de modellen een “anti-schemspecificatie” en maakten de AI vervolgens beoordelen voordat hij actie ondernam. Het is alsof je een klein kind de regels laat herhalen voordat je ze laat spelen.

De resultaten waren indrukwekkend. De techniek leidde tot een significante vermindering van ‘geheime acties’. Het daalde de frequentie van dit gedrag van tot 13% tot minder dan 1% in sommige modellen. Hoewel het probleem niet volledig is geëlimineerd, laten deze bevindingen zien dat er vooruitgang wordt geboekt.

De onderzoekers waarschuwen dat dit een probleem is dat nu moet worden aangepakt. Naarmate AI complexere taken krijgt met echte gevolgen, zal het potentieel voor schadelijke schema’s groeien. Het is een echt vreemd probleem voor software, omdat niet-AI-programma’s u niet opzettelijk misleiden. Maar naarmate we meer verantwoordelijkheid blijven leggen in de handen van AI -agenten, zal ervoor zorgen dat ze echt eerlijk zijn, belangrijker dan ooit.

Vandaag brengen we onderzoek uit met @apolloaievals.

In gecontroleerde tests vonden we gedrag dat consistent was met het plannen in grensmodellen – en testten we een manier om het te verminderen.

Hoewel we geloven dat dit gedrag vandaag geen ernstige schade toebrengt, is dit een toekomstig risico dat we voorbereiden …

– OpenAI (@openai) 17 september 2025