Een inmiddels gepatchte beveiligingskwetsbaarheid in de ChatGPT-app van OpenAI voor macOS zou het voor aanvallers mogelijk kunnen maken om langdurige, persistente spyware in het geheugen van de tool voor kunstmatige intelligentie (AI) te plaatsen.
De techniek, genaamd SpAIwarezou kunnen worden misbruikt om “voortdurende data-exfiltratie van alle informatie die de gebruiker heeft getypt of alle reacties die ChatGPT heeft ontvangen, te vergemakkelijken, inclusief toekomstige chatsessies”, aldus beveiligingsonderzoeker Johann Rehberger.
Het probleem is in essentie het misbruik van een functie genaamd geheugen, die OpenAI eerder deze februari introduceerde en begin deze maand uitrolde voor ChatGPT Free-, Plus-, Team- en Enterprise-gebruikers.
Wat het doet is in feite ChatGPT toestaan om bepaalde dingen te onthouden in chats, zodat gebruikers de moeite besparen om dezelfde informatie steeds opnieuw te herhalen. Gebruikers hebben ook de optie om het programma te instrueren om iets te vergeten.
“De herinneringen van ChatGPT evolueren met je interacties en zijn niet gekoppeld aan specifieke conversaties”, zegt OpenAI. “Als je een chat verwijdert, worden de herinneringen niet gewist; je moet de herinnering zelf verwijderen.”
De aanvalstechniek bouwt voort op eerdere bevindingen waarbij gebruik werd gemaakt van indirecte promptinjectie om herinneringen te manipuleren, zodat valse informatie of zelfs kwaadaardige instructies werden onthouden. Daarmee werd een vorm van persistentie bereikt die tussen gesprekken bleef bestaan.
“Omdat de schadelijke instructies in het geheugen van ChatGPT worden opgeslagen, bevatten alle nieuwe gesprekken voortaan de instructies van de aanvallers en worden alle chatberichten en antwoorden voortdurend naar de aanvaller verzonden”, aldus Rehberger.
“De kwetsbaarheid voor data-exfiltratie is daardoor veel gevaarlijker geworden, omdat deze nu ook in chatgesprekken voorkomt.”
In een hypothetisch aanvalsscenario zou een gebruiker ertoe kunnen worden verleid een schadelijke site te bezoeken of een document met een boobytrap te downloaden. Dit document wordt vervolgens met ChatGPT geanalyseerd om het geheugen bij te werken.
De website of het document kan instructies bevatten om alle toekomstige gesprekken heimelijk door te sturen naar een server die door de tegenstander wordt beheerd. Deze gesprekken kunnen vervolgens door de aanvaller aan de andere kant worden opgehaald, ook na één chatsessie.
Na verantwoorde openbaarmaking heeft OpenAI het probleem met ChatGPT versie 1.2024.247 aangepakt door de exfiltratievector te sluiten.
“ChatGPT-gebruikers moeten regelmatig de herinneringen controleren die het systeem over hen opslaat, op verdachte of onjuiste herinneringen en deze vervolgens opschonen”, aldus Rehberger.
“Het was erg interessant om deze aanvalsketen samen te stellen en het laat zien hoe gevaarlijk het is om automatisch langetermijngeheugen aan een systeem toe te voegen. Dat geldt zowel vanuit het oogpunt van misinformatie/oplichting als wat betreft de continue communicatie met servers die door aanvallers worden beheerd.”
De onthulling komt nadat een groep academici een nieuwe AI-jailbreaktechniek met de codenaam MathPrompt heeft ontdekt. Deze techniek maakt gebruik van de geavanceerde mogelijkheden van grote taalmodellen (LLM’s) op het gebied van symbolische wiskunde om de beveiligingsmechanismen ervan te omzeilen.
“MathPrompt maakt gebruik van een proces in twee stappen: eerst worden schadelijke natuurlijke taalprompts omgezet in symbolische wiskundige problemen, en vervolgens worden deze wiskundig gecodeerde prompts gepresenteerd aan een LLM-doelgroep”, benadrukken de onderzoekers.
Uit het onderzoek, uitgevoerd met behulp van tests in 13 geavanceerde LLM’s, bleek dat de modellen gemiddeld 73,6% van de tijd met schadelijke uitvoer reageerden wanneer ze wiskundig gecodeerde prompts kregen, vergeleken met ongeveer 1% bij ongewijzigde schadelijke uitvoer.
Het is ook een vervolg op de introductie door Microsoft van een nieuwe correctiefunctie die, zoals de naam al aangeeft, het mogelijk maakt om AI-uitvoer te corrigeren wanneer er onnauwkeurigheden (bijvoorbeeld hallucinaties) worden gedetecteerd.
“Deze baanbrekende functionaliteit bouwt voort op onze bestaande Groundedness Detection-functie en zorgt ervoor dat Azure AI Content Safety hallucinaties in realtime kan identificeren en corrigeren, voordat gebruikers van generatieve AI-toepassingen hiermee te maken krijgen”, aldus de techgigant.