Onderzoekers vinden kwetsbaarheden in ChatGPT waardoor aanvallers AI kunnen misleiden om gegevens te lekken

Cybersecurity-onderzoekers hebben een nieuwe reeks kwetsbaarheden onthuld die van invloed zijn op de ChatGPT-chatbot voor kunstmatige intelligentie (AI) van OpenAI en die door een aanvaller kunnen worden misbruikt om zonder hun medeweten persoonlijke informatie uit de herinneringen en chatgeschiedenis van gebruikers te stelen.

De zeven kwetsbaarheden en aanvalstechnieken zijn volgens Tenable gevonden in de GPT-4o- en GPT-5-modellen van OpenAI. OpenAI heeft er sindsdien een aantal aangepakt.

Deze problemen stellen het AI-systeem bloot aan indirecte prompt injection-aanvallen, waardoor een aanvaller het verwachte gedrag van een groot taalmodel (LLM) kan manipuleren en het kan misleiden tot het uitvoeren van onbedoelde of kwaadaardige acties, aldus beveiligingsonderzoekers Moshe Bernstein en Liv Matan in een rapport gedeeld met The Hacker News.

De vastgestelde tekortkomingen worden hieronder opgesomd:

Kwetsbaarheid van indirecte promptinjectie via vertrouwde sites in browsercontext, waarbij ChatGPT wordt gevraagd de inhoud van webpagina’s samen te vatten met kwaadaardige instructies toegevoegd in het commentaargedeelte, waardoor de LLM deze uitvoert
Zero-click indirecte prompt injectie-kwetsbaarheid in zoekcontext, waarbij de LLM wordt misleid om kwaadaardige instructies uit te voeren door simpelweg naar een website te vragen in de vorm van een zoekopdracht in natuurlijke taal, vanwege het feit dat de site mogelijk is geïndexeerd door zoekmachines zoals Bing en OpenAI’s crawler geassocieerd met SearchGPT.
Kwetsbaarheid voor snelle injectie via één klik, waarbij een link wordt gemaakt in het formaat “chatgpt(.)com/?q={Prompt}”, waardoor de LLM de query automatisch uitvoert in de parameter “q=”
Een veiligheidsmechanisme omzeilt de kwetsbaarheid, waarbij wordt geprofiteerd van het feit dat het domein bing(.)com in ChatGPT op de toelatingslijst staat als een veilige URL om Bing-advertentietrackinglinks (bing(.)com/ck/a) in te stellen om kwaadaardige URL’s te maskeren en toe te staan dat deze in de chat worden weergegeven.
Conversatie-injectietechniek, waarbij kwaadaardige instructies in een website worden ingevoegd en ChatGPT wordt gevraagd de website samen te vatten, waardoor de LLM op daaropvolgende interacties reageert met onbedoelde antwoorden omdat de prompt in de conversatiecontext wordt geplaatst (dwz de uitvoer van SearchGPT)
Techniek voor het verbergen van schadelijke inhoud, waarbij kwaadaardige aanwijzingen worden verborgen door misbruik te maken van een bug die voortkomt uit de manier waarop ChatGPT markdown weergeeft, waardoor gegevens op dezelfde regel verschijnen, wat een afgeschermde codeblokopening (“`) aangeeft nadat het eerste woord niet wordt weergegeven
Geheugeninjectietechniek, waarbij het ChatGPT-geheugen van een gebruiker wordt vergiftigd door verborgen instructies op een website te verbergen en de LLM te vragen de site samen te vatten

De onthulling komt dicht in de buurt van onderzoek dat verschillende soorten snelle injectie-aanvallen aantoont tegen AI-tools die in staat zijn veiligheids- en beveiligingsrails te omzeilen –

Een techniek genaamd PromptJacking die misbruik maakt van drie kwetsbaarheden bij het uitvoeren van externe code in de Chrome-, iMessage- en Apple Notes-connectoren van Anthropic Claude om onopgeschoonde opdrachtinjectie te bewerkstelligen, wat resulteert in een snelle injectie
Een techniek genaamd Claude-piraat die misbruik maakt van Claude’s Files API voor gegevensexfiltratie door gebruik te maken van indirecte promptinjecties die een toezicht op Claude’s netwerktoegangscontroles bewapenen
Een techniek die agentsessiesmokkel wordt genoemd en die gebruikmaakt van het Agent2Agent-protocol (A2A) en een kwaadwillende AI-agent in staat stelt een gevestigde cross-agent-communicatiesessie te misbruiken om aanvullende instructies te injecteren tussen een legitiem clientverzoek en de reactie van de server, wat resulteert in contextvergiftiging, gegevensexfiltratie of ongeautoriseerde uitvoering van tools
Een techniek die prompt inception wordt genoemd en waarbij gebruik wordt gemaakt van snelle injecties om een AI-agent te sturen om vooroordelen of onwaarheden te versterken, wat leidt tot desinformatie op grote schaal
Een zero-click-aanval, genaamd shadow escape, die kan worden gebruikt om gevoelige gegevens van onderling verbonden systemen te stelen door gebruik te maken van standaard Model Context Protocol (MCP)-instellingen en standaard MCP-toestemming via speciaal vervaardigde documenten met ‘schaduwinstructies’ die het gedrag activeren wanneer ze worden geüpload naar AI-chatbots
Een indirecte promptinjectie gericht op Microsoft 365 Copilot die misbruik maakt van de ingebouwde ondersteuning van de tool voor Mermaid-diagrammen voor gegevensonderschepping door gebruik te maken van de ondersteuning voor CSS
Een kwetsbaarheid in GitHub Copilot Chat genaamd CamoLeak (CVSS-score: 9,6) die heimelijke exfiltratie van geheimen en broncode uit privéopslagplaatsen en volledige controle over de reacties van Copilot mogelijk maakt door een Content Security Policy (CSP)-bypass en externe promptinjectie te combineren met behulp van verborgen opmerkingen in pull-aanvragen
Een white-box jailbreak-aanval genaamd LatentBreak die natuurlijke vijandige prompts genereert met weinig verwarring, die veiligheidsmechanismen kan omzeilen door woorden in de invoerprompt te vervangen door semantisch gelijkwaardige prompts en de oorspronkelijke bedoeling van de prompt te behouden

De bevindingen tonen aan dat het blootstellen van AI-chatbots aan externe tools en systemen, een belangrijke vereiste voor het bouwen van AI-agents, het aanvalsoppervlak vergroot door bedreigingsactoren meer mogelijkheden te bieden om kwaadaardige aanwijzingen te verbergen die uiteindelijk door modellen worden ontleed.

“Snelle injectie is een bekend probleem met de manier waarop LLM’s werken, en helaas zal dit in de nabije toekomst waarschijnlijk niet systematisch worden opgelost”, aldus Tenable-onderzoekers. “AI-leveranciers moeten ervoor zorgen dat al hun veiligheidsmechanismen (zoals url_safe) goed werken om de potentiële schade veroorzaakt door snelle injectie te beperken.”

De ontwikkeling komt omdat een groep academici van Texas A&M, de Universiteit van Texas en Purdue University ontdekten dat het trainen van AI-modellen op ‘junk data’ kan leiden tot LLM ‘brain rot’. De waarschuwing ‘sterk vertrouwen op internetdata leidt ertoe dat LLM pre-training in de valkuil van inhoudsbesmetting loopt.’

Vorige maand ontdekte een onderzoek van Anthropic, het Britse AI Security Institute en het Alan Turing Institute ook dat het mogelijk is om met succes AI-modellen van verschillende groottes (600M-, 2B-, 7B- en 13B-parameters) achter de deur te plaatsen met behulp van slechts 250 vergiftigde documenten. Daarmee worden eerdere aannames ondermijnd dat aanvallers controle moesten krijgen over een bepaald percentage van de trainingsgegevens om met het gedrag van een model te kunnen knoeien.

Vanuit aanvalsoogpunt zouden kwaadwillende actoren kunnen proberen webinhoud te vergiftigen die bedoeld is voor het trainen van LLM’s, of ze zouden hun eigen vergiftigde versies van open-sourcemodellen kunnen maken en verspreiden.

“Als aanvallers slechts een vast, klein aantal documenten hoeven te injecteren in plaats van een percentage trainingsgegevens, kunnen vergiftigingsaanvallen haalbaarder zijn dan eerder werd aangenomen”, aldus Anthropic. “Het creëren van 250 kwaadaardige documenten is triviaal vergeleken met het creëren van miljoenen, waardoor deze kwetsbaarheid veel toegankelijker wordt voor potentiële aanvallers.”

En dat is nog niet alles. Uit een ander onderzoek van wetenschappers van Stanford University bleek dat het optimaliseren van LLM’s voor competitief succes in de verkoop, verkiezingen en sociale media onbedoeld tot een verkeerde afstemming kan leiden, een fenomeen dat bekend staat als Moloch’s Bargain.

“In lijn met marktprikkels zorgt deze procedure ervoor dat agenten hogere verkopen, grotere kiezersaandelen en grotere betrokkenheid realiseren”, schreven onderzoekers Batu El en James Zou in een begeleidend artikel dat vorige maand werd gepubliceerd.

“Dezelfde procedure introduceert echter ook kritische veiligheidsrisico’s, zoals misleidende productpresentatie in verkooppraatjes en verzonnen informatie in posts op sociale media, als bijproduct. Als er niets aan wordt gedaan, dreigt de concurrentie op de markt te ontaarden in een race naar de bodem: de agent verbetert de prestaties ten koste van de veiligheid.”