Hoe AI-hallucinaties echte veiligheidsrisico’s veroorzaken

AI-hallucinaties introduceren ernstige veiligheidsrisico’s in de besluitvorming over kritieke infrastructuur door het menselijk vertrouwen te exploiteren via zeer zelfverzekerde maar onjuiste resultaten. Als een AI-model geen zekerheid heeft, beschikt het niet over een mechanisme om dat te herkennen. In plaats daarvan genereert het de meest waarschijnlijke respons op basis van patronen in de trainingsgegevens, zelfs als die respons onnauwkeurig is. Deze uitkomsten lijken misschien gezaghebbend, waardoor ze bijzonder gevaarlijk zijn bij het nemen van beslissingen op het gebied van veiligheid in de echte wereld.

Op basis van de AA-Omniscience-benchmark van Artificial Analysis bleek uit een evaluatie uit 2025 van 40 AI-modellen dat op vier na alle geteste modellen eerder een zelfverzekerd, onjuist antwoord gaven dan een correct antwoord op moeilijke vragen. Nu AI een grotere rol gaat spelen in cyberbeveiligingsoperaties, moeten organisaties elke door AI gegenereerde reactie als een potentiële kwetsbaarheid behandelen totdat een mens deze heeft geverifieerd.

Wat zijn AI-hallucinaties?

AI-hallucinaties zijn zelfverzekerd gepresenteerde, plausibel klinkende resultaten die feitelijk onjuist zijn. Basistaalmodellen halen geen geverifieerde informatie op; ze construeren antwoorden door woorden en zinnen te voorspellen op basis van aangeleerde patronen in hun trainingsgegevens. Omdat hun antwoorden statistisch waarschijnlijk zijn, maar niet noodzakelijkerwijs waar, kunnen gehallucineerde resultaten sterk lijken op nauwkeurige informatie. Hoewel ze hallucineren, kunnen AI-modellen niet-bestaande bronnen aanhalen, referentieonderzoek dat nooit is uitgevoerd of verzonnen gegevens presenteren met dezelfde overtuiging als vertrouwde informatie.

Voor organisaties is het belangrijkste probleem rond AI-hallucinaties niet alleen onnauwkeurigheid, maar ook misplaatst vertrouwen. Wanneer een AI-uitvoer als de absolute waarheid klinkt, kunnen werknemers ervan uitgaan dat deze correct is en ernaar handelen zonder verificatie. In cyberbeveiligingsomgevingen vormen onjuiste AI-outputs aanzienlijke veiligheidsrisico’s, omdat ze niet alleen belangrijke beslissingen vormen, maar ook rechtstreeks worden ingevoerd in geautomatiseerde systemen die operationele acties kunnen veroorzaken. De gevolgen kunnen onder meer systeemverstoringen, financiële verliezen en de introductie van nieuwe kwetsbaarheden zijn.

Wat veroorzaakt AI-hallucinaties?

De eerste stap in de richting van het verzachten van de impact van AI-hallucinaties is begrijpen hoe ze ontstaan. Hier zijn de verschillende factoren die kunnen bijdragen aan AI-hallucinaties:

  • Gebrekkige trainingsgegevens: AI-modellen leren van de gegevens waarop ze zijn getraind. Als die gegevens verouderde informatie of regelrechte fouten bevatten, zal het model deze tekortkomingen in zijn resultaten verwerken. Het zal de discrepanties niet signaleren; het zal van hen leren.
  • Bias in invoergegevens: Oververtegenwoordiging van bepaalde patronen of scenario’s kan ertoe leiden dat een AI-model deze patronen als universeel toepasbaar beschouwt, zelfs als de context verschilt.
  • Gebrek aan antwoordvalidatie: Basistaalmodellen zijn niet gebouwd om de feitelijke juistheid te verifiëren. Ze optimaliseren voor coherente, plausibele resultaten. Hoewel sommige systemen terughaal- of aardingslagen toevoegen om dit risico te verminderen, blijft het kerngeneratieproces kwetsbaar voor hallucinaties.
  • Snelle dubbelzinnigheid: Vage input vergroot de kans dat AI-modellen hiaten opvullen met aannames, waardoor het risico op onjuiste outputs en hallucinaties toeneemt.

Drie manieren waarop AI-hallucinaties de cyberveiligheid beïnvloeden

Niet elke AI-hallucinatie heeft dezelfde impact, maar onjuiste of verzonnen informatie kan organisaties kwetsbaar maken voor ernstige cyberdreigingen. Drie belangrijke manieren waarop AI-hallucinaties zich manifesteren zijn gemiste bedreigingen, verzonnen bedreigingen en onjuiste oplossingen.

1. Gemiste bedreigingen

De detectie van AI-bedreigingen is vaak afhankelijk van het identificeren van patronen en afwijkingen op basis van historische gegevens en aangeleerd gedrag. Wanneer een cyberaanval aansluit bij bekend gedrag, presteert het AI-model goed; maar als dat niet het geval is, heeft het model niets om het mee te vergelijken, zodat de dreiging onopgemerkt kan blijven. Dit is vooral problematisch voor ondervertegenwoordigde aanvalstechnieken en zero-day-aanvallen, die misbruik maken van kwetsbaarheden die onbekend zijn bij de leverancier en daarom niet zijn gepatcht. Omdat deze bedreigingen niet worden weerspiegeld in trainingsgegevens, beschikt het AI-model niet over voldoende context om ze te signaleren, wat resulteert in een grotere kans op onopgemerkte kwetsbaarheden en een grotere blootstelling in de omgeving.

2. Verzonnen bedreigingen

In tegenstelling tot gemiste bedreigingen kunnen AI-modellen ook valse positieven hallucineren door normale activiteiten ten onrechte als kwaadaardig te classificeren, waardoor teams worden gewaarschuwd voor bedreigingen die niet bestaan. Normaal netwerkverkeer kan bijvoorbeeld ten onrechte als verdacht worden geïnterpreteerd, waardoor waarschuwingen worden geactiveerd die aanleiding geven tot onnodige incidentresponsacties. Deze valse alarmen kunnen leiden tot het afsluiten van systemen, het verspillen van bronnen en verstoorde activiteiten als gevolg van verzonnen bedreigingen. Na verloop van tijd kunnen herhaalde valse positieven leiden tot alarmmoeheid, waarbij beveiligingsteams ongevoelig worden voor alle waarschuwingen. Dit vergroot het risico dat legitieme bedreigingen over het hoofd worden gezien in omgevingen waarin teams zijn geconditioneerd om waarschuwingen te wantrouwen.

3. Onjuist herstel

Dit is een van de gevaarlijkste vormen van AI-hallucinatie sinds deze voorkomt na vertrouwen is al gevestigd. Een AI-systeem kan bijvoorbeeld vol vertrouwen aanbevelen gevoelige bestanden te verwijderen, systeemconfiguraties te wijzigen of firewallregels uit te schakelen. Als deze acties worden uitgevoerd, vooral via geprivilegieerde accounts, kunnen ze organisaties blootstellen aan op identiteit gebaseerde aanvallen, zijdelingse bewegingen of onomkeerbaar gegevensverlies. Zelfs als de detectie van AI-bedreigingen accuraat is, kunnen hallucinerende aanwijzingen een ingeperkt beveiligingsincident laten escaleren tot een bredere inbreuk.

Hoe organisaties het risico op AI-hallucinatie kunnen verminderen

Hoewel AI-hallucinaties niet volledig kunnen worden geëlimineerd, kan hun impact aanzienlijk worden verminderd door de volgende controles en beheersmaatregelen.

Vereist menselijke beoordeling vóór actie

Door AI gegenereerde resultaten mogen geen aanleiding geven tot gevoelige of geprivilegieerde acties zonder eerst menselijke verificatie. Dit is vooral belangrijk voor workflows waarbij infrastructuurwijzigingen, toegangsupdates of incidentrespons betrokken zijn. De herzieningsvereiste zou niet alleen moeten gelden als er iets mis lijkt te zijn; modellen kunnen even zelfverzekerd klinken, of ze nu gelijk of ongelijk hebben.

Behandel trainingsgegevens als een beveiligingsmiddel

AI-hallucinaties zijn vaak terug te voeren op trainingsgegevens. Het regelmatig controleren van de gegevens die worden gebruikt om AI-systemen te trainen of te aarden door verouderde gegevens, bevooroordeelde datasets en onnauwkeurige informatie te verwijderen, verkleint de kans dat deze fouten in de output verschijnen. Naarmate door AI gegenereerde inhoud online steeds gebruikelijker wordt, bestaat er een groter risico dat toekomstige modellen worden getraind op basis van verzonnen informatie die door eerdere modellen is geproduceerd, in een fenomeen dat ook wel model-instorting wordt genoemd. Zonder continu databeheer wordt het risico op gebrekkige AI-outputs alleen maar groter.

Dwing toegang met de minste bevoegdheden af ​​voor AI-systemen

AI-aangedreven systemen mogen alleen de machtigingen krijgen die ze nodig hebben om hun taken uit te voeren. Dit lijkt misschien op een AI-systeem dat alleen bestanden mag lezen en niet mag verwijderen – zelfs als een hallucinerende aanbeveling dit zegt. Door de toegang met de minste bevoegdheden te beperken, zorgen organisaties ervoor dat zelfs als een AI-systeem onjuiste begeleiding genereert, het geen acties kan uitvoeren die verder gaan dan wat het mag doen.

Investeer in een snelle technische opleiding

De output van AI wordt sterk bepaald door de kwaliteit van de input, dus een vage prompt geeft het model meer mogelijkheden om hiaten op te vullen met onjuiste aannames, waardoor het risico op hallucinaties toeneemt. Organisaties moeten prioriteit geven aan het trainen van medewerkers, vooral degenen die rechtstreeks met AI-systemen communiceren, over het schrijven van specifieke aanwijzingen die het model aansturen om verifieerbare resultaten te produceren. Werknemers die begrijpen dat AI-outputs altijd moeten worden gevalideerd vóór gebruik, zullen het AI-systeem minder snel als gezaghebbend interpreteren.

Plaats identiteitsbeveiliging in het centrum van AI-beheer

AI-hallucinaties worden echte veiligheidsrisico’s wanneer ze tot actie leiden, wat niet in de eerste plaats een modelprobleem is, maar eerder een toegangsprobleem. Beveiligingsincidenten ontstaan ​​wanneer AI-systemen voldoende toegang hebben om te reageren op onjuiste aanwijzingen, of wanneer een mens resultaten vertrouwt zonder verificatie. Keeper® is gebouwd om organisaties de zichtbaarheid en toegangscontroles te bieden die nodig zijn om ongeautoriseerde toegang te voorkomen, zelfs wanneer AI-gestuurde beslissingen onjuist zijn. Door toegang met de minste privileges af te dwingen, geprivilegieerde activiteiten te monitoren en zowel menselijke als niet-menselijke identiteiten (NHI’s) te beveiligen, kunnen organisaties het risico verkleinen dat AI-hallucinaties uitgroeien tot schadelijke veiligheidsincidenten.

Opmerking: Dit artikel is zorgvuldig geschreven en bijgedragen voor ons publiek door Ashley D’Andrea, Content Writer bij Keeper Security.

Thijs Van der Does