ChatGPhish-kwetsbaarheid verandert ChatGPT-websamenvattingen in een phishing-oppervlak

Cybersecurity-onderzoekers hebben details onthuld van een kwetsbaarheid in OpenAI ChatGPT die gebruik maakt van het impliciete vertrouwen van de kunstmatige intelligentie (AI)-assistent in Markdown-links en -afbeeldingen om snelle injecties te activeren en de deur te openen voor phishing-aanvallen.

De techniek heeft de codenaam gekregen ChatGPish van Permiso Security.

“De reactie-renderer van chatgpt.com vertrouwt Markdown-links en Markdown-afbeeldings-URL’s die afkomstig zijn van een pagina van een derde partij die de assistent zojuist heeft samengevat. Het haalt die afbeeldingen automatisch op en geeft die links weer als live, klikbare elementen in de vertrouwde assistent-gebruikersinterface”, zei beveiligingsonderzoeker Andi Ahmeti in een rapport gedeeld met The Hacker News.

In een hypothetisch aanvalsscenario kan een slechte actor een kleine lading toevoegen aan elke webpagina die het slachtoffer later aan ChatGPT vraagt samen te vatten, waardoor zijn IP-, User-Agent- en Referer-gegevens worden gelekt wanneer door de aanvaller gehoste afbeeldingen die in de pagina zijn ingebed, automatisch worden opgehaald wanneer het antwoord wordt weergegeven.

Bovendien kan het ertoe leiden dat kwaadaardige Markdown-links worden weergegeven als live klikbare elementen in de reactie van de assistent, valse beveiligingswaarschuwingen in systeemstijl weergeven en een QR-code uit de S3-bucket van een aanvaller weergeven en het slachtoffer ertoe verleiden deze via zijn mobiele apparaat te scannen, waardoor desktop-URL-filters en bedrijfsbeveiligingscontroles effectief worden omzeild.

De nieuwste bevinding laat zien hoe samenvatting een vijandig oppervlak kan worden. Eerder deze maand onthulde Permiso ook hoe een door een aanvaller gecontroleerde e-mail met speciaal vervaardigde instructies, samengevat door Microsoft Copilot, de uitvoer ervan zou kunnen beïnvloeden via een cross-prompt injectie (XPIA) of indirecte prompt injectie.

Wat ChatGPhish tot een opmerkelijke aanvalstechniek maakt, is niet de promptinjectie zelf, maar de manier waarop de instructies die in een webpagina zijn ingebed, worden gevolgd en aan de gebruiker worden gepresenteerd als onderdeel van de samenvatting.

Met andere woorden, een gewone webpagina samengevat met ChatGPT is voldoende om phishing-links, vervalste accountwaarschuwingen, afbeeldingen op afstand en QR-codes rechtstreeks in een vertrouwde AI-interface weer te geven. Nu organisaties ChatGPT steeds vaker gebruiken voor onderzoek en samenvattingen, betekent deze kwetsbaarheid dat elke kwaadaardige webpagina die een medewerker aan de AI-chatbot vraagt, een lading kan bevatten die ChatGPT in een phishing-oppervlak verandert.

“De verschuiving van e-mail naar de browser vergroot het potentiële aanvalsoppervlak aanzienlijk. Een gebruiker hoeft niet langer een kwaadaardige bijlage te openen of op een verdacht bericht te reageren”, aldus Permiso. “Het simpelweg samenvatten van een pagina tijdens normale browse-activiteit kan door aanvallers bestuurde instructies introduceren in de modelcontext en uiteindelijk in het weergegeven antwoord.”

De onthulling komt op het moment dat Adversa AI twee aanvalstechnieken met de codenaam SymJack en TrustFall heeft gedocumenteerd, gericht op AI-codeeragenten en agentic coding CLI’s waarmee aanvallers code kunnen uitvoeren en volledige machines kunnen compromitteren.

SymJack is “een enkel aanvalspatroon waarmee een kwaadaardige repository externe code kan uitvoeren via AI-coderingsassistenten”, aldus beveiligingsonderzoeker Rony Utevsky. “De agent wordt verleid tot een goedaardig uitziende bestandskopie die in het geheim zijn eigen configuratie overschrijft, en de volgende herstart voert aanvallercode uit met volledige gebruikersrechten.”

Concreet zorgt een repository met boobytraps ervoor dat de agent een ogenschijnlijk onschadelijk bestand kopieert, waarbij de bestemming een symbolische link is die verwijst naar de eigen configuratie van de agent, waardoor de lading van de aanvaller naar de configuratie wordt geschreven. Bij de volgende herstart verschijnt een kwaadaardige Model Context Protocol (MCP)-server en voert willekeurige code uit met volledige gebruikersrechten.

TrustFall daarentegen is een aanval met één klik op externe code-uitvoering via een kwaadaardige repository die een configuratie kan verzenden die een MCP-server automatisch goedkeurt en voortbrengt zonder de expliciete goedkeuring van een gebruiker of zonder dat een tool-oproep van de agent nodig is.

Met andere woorden: het enige dat een bedreigingsacteur nodig heeft om de aanval uit te voeren, is het creëren van een repository met daarin een kwaadaardige MCP-server en configuratie-instellingen die automatisch goedkeuren dat de aanval wordt uitgevoerd. Wanneer een ontwikkelaar de repository in de AI-coderingstool kloont of opent en op “Enter” drukt bij de vertrouwensprompt voor de map, start de AI-coderingstool uiteindelijk de door de aanvaller bestuurde code met de volledige systeemrechten van de ontwikkelaar.

“Op het moment dat een slachtoffer de repository kloont, Claude uitvoert en op het generieke ‘Ja, ik vertrouw deze map’-dialoog klikt, start de MCP-server als een native OS-proces met volledige gebruikersrechten”, merkte Adversa AI op. “De payload wordt uitgevoerd bij het opstarten van de server, voordat een tool wordt aangeroepen en zonder extra aanwijzingen.”

De bevindingen vallen samen met de ontdekking van een aantal aanvalsmethoden tegen AI-modellen in de afgelopen maanden:

Het gebruik van een nieuwe jailbreak-aanpak genaamd Involuntary In-Context Learning (IICL) die “de spanning tussen in-context learning (ICL) en veiligheidsafstemming exploiteert” om de veiligheidsbeperkingen van GPT-5.4 te omzeilen
De veiligheidsbeugels van LLM’s kunnen worden omzeild als een gebruiker het model ertoe verleidt een gesprek met meerdere beurten te voeren. “Multi-turn evaluatie is om één reden belangrijk: het is waar aanvallers daadwerkelijk wonen”, aldus Cisco. “Echte tegenstanders herhalen. Ze herformuleren weigeringen, verdelen taken over beurten, nemen persona’s aan en escaleren geleidelijk. Een benchmark voor één beurt kan daar niets van zien.”
Een kwetsbaarheid in Anthropic Claude Code die gebruik maakt van een configuratiewijziging op gebruikersniveau in “~/.claude.json” om MCP-eindpunten te herschrijven via een frauduleus npm-pakket om een aanvaller tussen Claude Code en een door OAuth ondersteunde MCP-server te plaatsen, waardoor de kwaadwillende tokens kan vastleggen die worden gebruikt voor downstream SaaS-toegang.
Het gebruik van een extern updatemechanisme waarmee een OpenClaw-vaardigheid tijdens de installatie goedaardig kan lijken, maar de aanvaller later in staat stelt de agent te beïnvloeden via werkruimtebestanden door de gebruiker tijdens het instellen van de vaardigheden te instrueren om specifieke instructies aan het HEARTBEAT.md-bestand toe te voegen.
Het gebruik van verborgen tekst met inhoud uit een legitieme nieuwsbrief of een roman in phishing-e-mails om een op AI gebaseerd e-mailbeveiligingssysteem te verwarren en het bericht als goedaardig te markeren.
Een kwetsbaarheid in Claude’s Chrome-browserextensie genaamd ClaudeBleed zorgt ervoor dat elke extensie, zelfs die zonder speciale machtigingen, deze kan kapen en de AI-assistent kan misleiden om namens hen actieve agentische acties uit te voeren. “De fout komt voort uit een instructie in de code van de extensie die ervoor zorgt dat elk script dat in de oorspronkelijke browser draait, kan communiceren met Claude’s LLM, maar niet verifieert wie het script uitvoert”, aldus LayerX. “Als gevolg hiervan kan elke extensie een inhoudsscript aanroepen (waarvoor geen speciale machtigingen vereist zijn) en opdrachten geven aan de Claude-extensie.”
Uit een onderzoek van Cisco is gebleken dat vijandige tekst die als afbeeldingen wordt weergegeven, een aanval die bekend staat als typografische promptinjectie, kan worden gebruikt om veiligheidsfilters in vision-taalmodellen (VLM’s) te omzeilen. “Wanneer een model er niet in slaagt het originele beeld te lezen (klein lettertype, sterke onscherpte, rotatie), kan een begrensde verstoring de semantische inhoud in de interne representatie van het model herstellen zonder de visuele leesbaarheid voor een mens te herstellen”, aldus Cisco. “Dit betekent dat een aanvaller afbeeldingen kan maken die op ruis of onleesbare vervorming lijken op een op OCR gebaseerd inhoudsfilter, maar toch volledig leesbare instructies naar de doel-VLM kunnen sturen.”
Een reeks kwetsbaarheden in de Microsoft Semantic Kernel (CVE-2026-25592 en CVE-2026-26030) die een prompt-injectie kunnen omzetten in uitvoering van externe code op hostniveau.
Het gebruik van de Neural Exec-prompt-injectieaanval en de Unicode-rechts-naar-links-override-functie om de invoer- en uitvoerfilters van Apple en de veiligheidsbeugels op het lokale model van Apple Intelligence te omzeilen en de LLM te misleiden om door aanvallers gerichte resultaten te produceren. Het probleem is verholpen in iOS 26.4 en macOS 26.4.
Een kwetsbaarheid voor indirecte injectie met de codenaam WebPromptTrap heeft gevolgen voor BrowserOS, een open-source agentic browser, die gebruikers misleidt om een autorisatiestap goed te keuren via een AI-samenvatting die wordt gegenereerd door het verwerken van een legitiem ogend artikel met verborgen instructies. Het probleem is verholpen in BrowserOS versie 0.32.0.
Uit een audit van het ecosysteem van agentenvaardigheden dat ClawHub en skills.sh omvat, is gebleken dat 13,4% van de 3.984 vaardigheden (dwz 534 in totaal) ten minste één kritiek beveiligingsprobleem kent, waaronder de distributie van malware, snelle injectie-aanvallen en blootgelegde geheimen. Ongeveer 1.467 vaardigheden hebben minstens één beveiligingsfout, variërend van hardgecodeerde API-sleutels en onveilige verwerking van inloggegevens tot blootstelling aan inhoud van derden.
Een paar aanvallen gericht op NemoClaw, NVIDIA’s open-source referentiestack om OpenClaw AI-agents te beveiligen, om OpenClaw-gegevens te exfiltreren met behulp van de standaardconfiguratie van de sandbox via een kwaadaardige GitHub-repository of een npm-pakket.

Terwijl grensverleggende AI-modellen blijven evolueren en volwassen worden, experimenteren bedreigingsactoren steeds vaker met de technologie om malware te schrijven met extra mogelijkheden om het gedrag ervan dynamisch aan te passen in een poging detectie te omzeilen, en om de besluitvorming over te dragen aan de LLM om vast te stellen of de gecompromitteerde omgeving waardevol of veilig genoeg is om de payloads in de volgende fase te laten vallen.

“Op de korte termijn riskeert de proliferatie van grensverleggende AI-modellen het risico dat tegenstanders in staat worden gesteld zero-days en N-days op een ongekende schaal te exploiteren”, aldus Palo Alto Networks Unit 42. “Het zal aanvallers waarschijnlijk ook in staat stellen om op grotere schaal, geavanceerder en sneller te bewegen dan ooit tevoren.”

Vorige maand heeft het cyberbeveiligingsbedrijf ook een proof-of-concept (PoC)-agent beschreven, Zealot genaamd, die de kracht van LLM’s benut om end-to-end cloudaanvallen uit te voeren met minimale menselijke begeleiding door bekende misconfiguraties en kwetsbaarheden te exploiteren.

Dit komt op zijn beurt voort uit het feit dat cloudomgevingen standaard ‘AI-Attack-Ready’ zijn, aangezien elke actie een API-equivalent heeft, gevarieerde detectiemechanismen heeft zoals metadata en opsommingsdiensten, vol zit met verkeerde configuraties en wordt aangestuurd door op inloggegevens gebaseerde toegang.

“De huidige LLM’s kunnen verkenning, uitbuiting, escalatie van privileges en data-exfiltratie aan elkaar koppelen met minimale menselijke begeleiding”, merkten Unit 42-onderzoekers Yahav Festinger en Chen Doytshman op. “De aanvallen zijn niet nieuw, maar automatisering betekent dat operaties die ooit gespecialiseerde expertise vereisten, nu kunnen worden georkestreerd door een AI-agent volgens gevestigde patronen.”