Nieuwe aanvallen zorgen ervoor dat OpenClaw AI-agent code uitvoert en geheimen lekt

Twee beveiligingsteams hebben in afzonderlijk onderzoek dat deze week is gepubliceerd aangetoond dat OpenClaw, de populaire zelfgehoste AI-agent, ertoe kan worden aangezet om door aanvallers gecontroleerde code uit te voeren of gevoelige gegevens over te dragen via normaal ogende invoer.

Imperva verborg instructies in gedeelde contacten, vCards en locatiepinnen die de agent uitvoerde zonder dat het slachtoffer ze ooit zag. Varonis bouwde een testagent op het platform, gaf het een mailbox vol met synthetische bedrijfsgegevens en zag hoe een enkele gewone e-mail hem ertoe aanzette nep-AWS-sleutels door te sturen en een nep-klantexport naar een extern adres.

De gevonden fout die Imperva heeft gevonden, is verholpen in OpenClaw 2026.4.23, dus update deze als je deze uitvoert. De phishing-zwakte die Varonis heeft gevonden, is niet iets dat met een patch wordt opgelost; het komt neer op het beperken van wat de agent alleen kan doen.

Verschillende deuren naar dezelfde kamer: de agent vertrouwt wat hem bereikt, en de toegang ervan wordt die van de aanvaller.

Verborgen opdrachten in een gedeeld contact

Imperva-onderzoeker Yohann Sillam keek hoe OpenClaw berichtengegevens doorgeeft aan het model erachter. Het probleem zit in het sanitair.

Wanneer de agent een gedeelde contactpersoon, vCard of locatie doorgeeft aan de LLM, wordt het object afgevlakt in de inline prompttekst, zonder dat er grenzen zijn die het als niet-vertrouwd markeren. De inhoud die de agent van internet haalt, wordt verpakt in een markering voor niet-vertrouwde inhoud. Berichtobjecten niet.

Slechts enkele velden reizen naar het model, en dat is waar de aanval misbruik van maakt. Een gedeeld contact verzendt alleen het naamveld, geserialiseerd als . De punthaken zijn legaal in een naam, dus het model kan niet zien waar de echte naam eindigt en een geïnjecteerde instructie begint. De contactnaam wordt afgekapt waar deze op het scherm wordt weergegeven, zowel op WhatsApp als in de ontvangende app, zodat het slachtoffer de payload ook niet ziet.

Dezelfde truc werkt via het volledige naamveld van een vCard, dat WhatsApp standaard ondersteunt, en via het label op een gedeelde locatiepin.

In Imperva’s tests met Gemini 3.1 Pro (preview-build) vertelde de verborgen tekst de agent om een script te downloaden en uit te voeren vanaf een server die de onderzoekers controleerden. Dat deed het. Een eenvoudig beeld met daarin verborgen instructies mislukte, waarschijnlijk omdat die aanval zo vaak is gerapporteerd dat modellen nu zijn getraind om er weerstand aan te bieden; de route bericht-object werkte omdat modellen er veel minder voorbeelden van hebben gezien.

Als het geheugen van OpenClaw standaard is ingeschakeld, waarschuwt Imperva, kan een enkel stukje breed gedeelde inhoud met een verborgen instructie stilletjes de agenten in gevaar brengen die deze opnemen, als ze niet in de sandbox zijn geplaatst.

Imperva maakte het probleem bekend en OpenClaw heeft een oplossing geleverd in versie 2026.4.23 die contactnamen, vCard-velden en locatielabels uit de prompttekst verplaatst naar een afzonderlijk niet-vertrouwd metadatakanaal. Imperva ontdekte hetzelfde afvlakkingspatroon bij andere persoonlijke AI-assistenten, dus het onderliggende probleem ligt niet alleen bij OpenClaw.

Een gewone e-mail is voldoende

Varonis Threat Labs kwam bij OpenClaw vanuit de sociale invalshoek. In onderzoek onder leiding van Itay Yashar bouwde het team een agent genaamd Knuppelend op het platform, koppelde het aan een Gmail-inbox vol realistische maar synthetische zakelijke rommel en nepgeheimen, en liet het door vier phishing-simulaties lopen op Google Gemini 3.1 Pro en OpenAI Codex GPT-5.4.

Ze trekken een grens tussen snelle injectie, waarbij instructies in gegevens worden verborgen, en wat zij agentphishing noemen: een geloofwaardig verzoek dat via een normaal kanaal binnenkomt en werkt omdat de agent actie onderneemt voordat hij controleert wie het heeft verzonden.

De agent slaagde niet voor beide exfiltratietests. In het eerste geval werd in een bericht waarin hij zich voordeed als teamleider Dan, verzonden vanaf een extern Gmail-adres, gevraagd om toegang te krijgen tijdens een nepproductie-incident. Pinchy vond de inloggegevens en stuurde nep-AWS IAM-toegangssleutels, databaseverbindingsreeksen en SSH-inloggegevens door in leesbare tekst.

Het tweede voorwendsel was zachter: een routinematig klinkend verzoek om de wekelijkse klantenexport, zogenaamd om een QBR-deck. De agent stuurde een synthetische dataset van 247 zakelijke klanten, inclusief contacten en contractwaarden. Beide fouten vonden plaats onder een strikt profiel dat de agent vertelde eerst de afzenders te verifiëren. De regel bestond. Urgentie versloeg het één keer, routine versloeg het de tweede keer.

De agent deed het beter als de dreiging eerder technisch dan sociaal was. Het communiceerde met een phishing-pagina voor cadeaubonnen, maar hield echte inloggegevens achter en markeerde deze uiteindelijk; het strikte profiel blokkeerde de pagina regelrecht. Op een kwaadaardig OAuth-toestemmingsscherm, vermomd als een urenregistratie-app, inspecteerde het het omleidingsdoel, beoordeelde het als verdacht en stopte voordat het toegang verleende.

Dat is de splitsing die Varonis naar voren brengt: de agent is beter dan veel mensen in het opsporen van slechte URL’s en valse inlogportals, en slechter in het sociale oordeel dat een menselijke pauze doet wanneer een collega op een vreemd tijdstip plotseling om inloggegevens vraagt. De drang om behulpzaam te zijn is het aanvalsoppervlak.

Varonis zegt dat OpenAI Codex GPT-5.4 voorzichtiger was dan Gemini 3.1 Pro met het invoeren of verzenden van gegevens naar externe sites zonder bevestiging, maar beiden vielen voor de sociale voorwendsels.

De zwakke plek achter beide aanvallen

Varonis brengt beide aanvallen in kaart op wat Simon Willison de dodelijke trifecta noemt: een agent die privégegevens kan lezen, niet-vertrouwde inhoud kan opnemen en gegevens weer kan verzenden. OpenClaw heeft ze alle drie, en daarom eindigen een vergiftigd contact en een vriendelijke e-mail op dezelfde plek.

Die vertrouwensgrens is niet alleen een acuut probleem; het verschijnt ook in de code van OpenClaw. Een afzonderlijke InfoSec Write-ups-analyse veranderde de eerdere adviezen van OpenClaw in regels voor statische analyse en gebruikte ze vervolgens om nog vijf tekortkomingen te vinden in de kanaalextensies Slack, Discord, Matrix, Zalo en Microsoft Teams.

Alle vijf hadden dezelfde bug: de opstartcode loste de toelatingslijst van elk kanaal op aan de hand van een veranderlijke weergavenaam in plaats van een stabiele ID, zodat een aanvaller die zichzelf een andere naam gaf om overeen te komen met een toegestane gebruiker, op de lijst kon glippen en de agent kon sturen. OpenClaw heeft ze gepatcht.

OpenClaw wordt geleverd met brede toegang tot bestanden, shells en meer dan twintig berichtenplatforms, en heeft sinds de lancering eind vorig jaar een gestage reeks eerdere waarschuwingen voor snelle injectie en data-exfiltratie gekregen.

De Nederlandse gegevensbeschermingsautoriteit nam het sterkste standpunt in: de Autoriteit Persoonsgegevens vertelde gebruikers en organisaties OpenClaw niet te gebruiken op systemen die gevoelige gegevens bevatten, daarbij verwijzend naar de risico’s van datalekken en accountovername.

Wat eraan te doen

Iedereen die OpenClaw gebruikt, moet updaten naar 2026.4.23 of hoger voor de oplossing voor het berichtobject. De rest is architectuur, geen snelle bewoordingen, en Varonis legt vier bedieningselementen uit.

Behandel het instructiebestand van de agent als een afgedwongen, versiebeheerd beleid en niet als een suggestie. Uitgaande e-mail heeft een poort nodig: geen eerste verzending naar onbekende adressen zonder goedkeuring, dus een gekaapte agent kan phishing niet doorgeven vanaf een vertrouwd account. Connectortoegang moet het vertrouwensniveau bijhouden van wat de taak heeft geactiveerd, zodat een inbox die buiten e-mail handelt niet ook de hele CRM kan lezen. En de meest risicovolle acties, het doorsturen van inloggegevens of het verplaatsen van geld, moeten wachten op een mens.

Beide teams komen op hetzelfde mentale model terecht. Varonis beschouwt het als een behandeling van de agent als een junior medewerker met systeemtoegang en zonder instinct voor wat er vreemd uitziet, en niet als een beveiligingsinstrument. Imperva komt daar vanuit de andere richting en noemt het een geauthenticeerde uitvoerder die zijn input vertrouwt.

De oplossingen die vandaag worden aangeboden zijn specifieke patches en vangrails. Het moeilijkere probleem ligt nog open. Een agent die nuttig genoeg is om op uw e-mail te reageren en uw opdrachten uit te voeren, is van nature een agent die input vertrouwt en wil helpen, en daar heeft nog niemand een algemene oplossing voor.