Agentjacking-aanval verleidt AI-codeeragenten om schadelijke code uit te voeren

Cybersecurity-onderzoekers hebben beschreven wat zij zeggen dat een nieuwe klasse van aanvallen is die codeeragenten van kunstmatige intelligentie (AI) kan misleiden om willekeurige code uit te voeren op ontwikkelaarsmachines.

Genaamd Agentjacking door Tenet Security kan de aanval worden geactiveerd door middel van een nepfoutrapport dat is gemaakt met behulp van Sentry, een open source platform voor het volgen van fouten en het monitoren van prestaties.

“De aanval maakt gebruik van een kritieke architectonische fout op het kruispunt van Sentry’s gebeurtenisopname (die willekeurige ladingen accepteert van iedereen met de DSN) en de Sentry MCP-server (die deze gegevens terugstuurt naar AI-agenten als vertrouwde systeemuitvoer)”, aldus beveiligingsonderzoekers Ron Bobrov, Barak Sternberg en Nevo Poran.

Het idee is om ambachtelijke invoer in Sentry-foutgebeurtenissen te injecteren, die vervolgens door codeeragenten zoals Claude Code en Cursor worden geïnterpreteerd als legitieme diagnostische oplossingsstappen en door aanvallers gecontroleerde code uitvoeren.

Een succesvolle aanval van dit type kan gevoelige gegevens blootleggen, waaronder omgevingsvariabelen, Git-inloggegevens, URL’s van privéopslagplaatsen en identiteiten van ontwikkelaars, zonder afhankelijk te hoeven zijn van methoden als phishing of eerdere servercompromissen.

Het probleem is geworteld in het impliciete vertrouwen dat gepaard gaat met het verbinden met externe diensten met behulp van Model Context Protocol (MCP). Omdat een AI-agent geen onderscheid kan maken tussen een foutgebeurtenis die wordt gegenereerd door een echte applicatiecrash of wordt geïnjecteerd door een aanvaller, creëert hij een pad naar uitvoering van willekeurige code wanneer de agent het antwoord verwerkt.

De door Tenet bedachte aanvalsketen is als volgt:

Een aanvaller vindt de Sentry Data Source Name (DSN) van een doelwit, een openbare, alleen-schrijven-referentie die is ingesloten in websites.
De aanvaller verzendt een kwaadaardige foutgebeurtenis naar het ingest-eindpunt van Sentry via een POST-verzoek met behulp van de DSN.
De geïnjecteerde gebeurtenis bevat ‘zorgvuldig opgemaakte prijsverlaging’ in het berichtveld en namen van contextsleutels. Wanneer de Sentry MCP-server deze gebeurtenis terugstuurt naar een AI-agent, wordt deze weergegeven als gestructureerde inhoud die visueel identiek is aan de systeemsjabloon van de Sentry.
Wanneer een ontwikkelaar zijn AI-codeeragent vraagt om “onopgeloste Sentry-problemen op te lossen” (of een soortgelijke prompt), vraagt de agent Sentry via MCP en ontvangt de kwaadaardige gebeurtenis.
De agent voert kwaadaardige code uit, die wordt uitgevoerd met de volledige rechten van de ontwikkelaar.

“De aanvaller raakt nooit de infrastructuur van het slachtoffer aan”, legden de onderzoekers uit. “De kwaadaardige instructie arriveert vermomd als een legitieme ‘oplossing’ binnen een gewone fout. Wanneer een ontwikkelaar zijn AI-agent vraagt om het Sentry-probleem op te lossen, leest de agent de opdracht van de aanvaller als vertrouwde begeleiding en voert deze uit – met de eigen rechten van de ontwikkelaar, op de eigen machine van de ontwikkelaar.

Agentjacking valt op omdat het zich richt op de AI-agent die een ontwikkelaar vertrouwt en een Sentry DSN als uitgangspunt gebruikt. Bovendien wordt de kortingsinjectie zodanig weergegeven dat de agent deze niet kan onderscheiden van legitieme Sentry-begeleiding.

Het AI-cyberbeveiligingsbedrijf zei dat het ten minste 2.388 organisaties had aangetroffen die waren blootgesteld aan geldige injecteerbare DSN’s, en dat het de aanval op een gecontroleerde manier had getest op meer dan 100 organisaties, waarbij een exploitatiesuccespercentage van 85% werd behaald tegen geïnjecteerde fouten bij enkele van de meest gebruikte AI-coderingsassistenten.

Sentry heeft het probleem op zijn beurt erkend, maar heeft ervoor gekozen het niet op te lossen, omdat het “technisch niet verdedigbaar” is. Het bedrijf zou echter een globaal inhoudsfilter hebben geactiveerd dat een ‘specifieke payload-string’ blokkeert.

“Terwijl bedrijven racen om AI-codeeragenten in te zetten, bewijst dit onderzoek dat de agenten zelf nu het aanvalsoppervlak vormen – gericht tegen de ontwikkelaars die hen vertrouwen, waarbij ze niets anders gebruiken dan gegevens die die organisaties over zichzelf publiceren”, aldus Tenet. “De aanval omzeilt EDR, WAF, IAM, VPN, Cloudflare en firewalls – omdat er niets kwaadaardigs te detecteren is. Elke actie in de keten is geautoriseerd.”