Onderzoekers bouwen een zelfreplicerende AI-worm die volledig op lokale, open-weight-modellen werkt

Onderzoekers van de Universiteit van Toronto hebben een proof-of-concept AI-aangedreven computerworm gebouwd en getest die een lokaal gehost open-weight groottaalmodel gebruikt om zich een weg te banen door een netwerk, op maat gemaakte aanvalsstrategieën te genereren voor elk doelwit dat hij tegenkomt, en zichzelf te repliceren, allemaal zonder menselijke tussenkomst en zonder een commerciële AI-dienst aan te raken.

De preprint, op 2 juni op arXiv geplaatst en momenteel onder peer review, laat zien waarom single-CVE-patching kapot gaat wanneer malware blootgestelde services kan inspecteren, nieuwe adviezen kan lezen en tijdens runtime een nieuw aanvalspad kan genereren.

In 15 geïsoleerde runs op een opzettelijk kwetsbaar netwerk met 33 hosts identificeerde de worm gemiddeld 31,3 kwetsbaarheden en kreeg verhoogde toegang op 23,1 hosts, ongeveer driekwart van de hosts waarop hij zich actief richtte. Vervolgens repliceerde het autonoom naar 20,4 van die hosts, oftewel 62% van het volledige netwerk, gedurende zeven dagen, zonder voorafgaande kennis van de netwerktopologie en zonder menselijke inbreng.

Traditionele wormen worden geleverd met een vaste exploit-payload, gekozen tijdens de bouwtijd. Repareer die specifieke bugs en de worm stopt met verspreiden.

Deze worm doet iets anders: hij gebruikt een open-weight LLM die op een enkele GPU draait om tijdens runtime aanvalslogica te genereren, afgestemd op wat hij op het volgende doelwit vindt. Geen vooraf gecodeerde exploitketen. Geen afhankelijkheid van OpenAI, Anthropic of enige andere API die een platform kan intrekken of een snelheidslimiet kan stellen.

Wat de worm eigenlijk deed

Onder leiding van universitair hoofddocent Nicolas Papernot omvat het CleverHans Lab-team de Universiteit van Toronto, Vector Institute, Universiteit van Cambridge en ServiceNow. Ze voerden 15 onafhankelijke experimenten uit op een geïsoleerd netwerk met 33 hosts (“FakeCorp”) dat Ubuntu, Debian, Rocky Linux, Alpine, Windows Server 2008 R2, 2019 en 2022 omvat, en IoT-apparaten.

Elke host had ten minste één echte kwetsbaarheid. Vijf van de 33 machines hadden GPU’s. In de belangrijkste propagatie-experimenten gebruikte de worm een gedeelde GPU-inferentiepool om de rekenkracht van slachtoffermachines te simuleren. Het team testte afzonderlijk de volledige GPU-tier-replicatie, waarbij de worm een lokale LLM-instantie op een gecompromitteerde GPU-host in scène zet; dat slaagde in 68,8% van de pogingen.

In het gelaagde ontwerp dienen geïnfecteerde, GPU-compatibele hosts als gedistribueerde redeneringsknooppunten die gevolgtrekkingen bieden voor apparaten met een lagere rekenkracht op het netwerk die het model zelf niet kunnen uitvoeren.

Tijdens de 15 runs kreeg de worm verhoogde toegang op 23,1 hosts en lanceerde met succes een replica op 88% daarvan. Het bereikte tot zeven generaties van zelfreplicatie, met een gemiddelde van 5,1. De opzet was opzettelijk kwetsbaar: volgens het artikel meet de test autonoom redeneren over realistische individuele tekortkomingen heen, en niet verspreid via een grotendeels verhard productienetwerk onder actieve eindpuntverdediging.

Exploits tijdens één run omvatten een aaneengeschakelde SambaCry en beschrijfbare root-cron-escalatie van privileges, Dirty Pipe, PrintNightmare, Drupalgeddon 2, Exim RCE, blinde SQL-injectie, JWT-bypass, Redis-escape en meer, niet omdat ze voorgeprogrammeerd waren, maar omdat de agent zijn weg naar hen beredeneerde op basis van wat hij op elke host aantrof.

Figuur 2 van het artikel brengt de volledige radiale voortplantingsboom over één run in kaart, en toont zes tot zeven generaties verspreid over Linux-, Windows- en IoT-hosts. Individuele exploitpogingen slaagden in ongeveer 44% van de gevallen. De meeste fouten kwamen voort uit een verkeerd ingedeelde syntaxis van de payload, en niet uit gebrekkige logica. Exploitaties van webapps en escalatie van Windows-privileges waren moeilijker dan lokale escalatie van Linux en service-exploits, een capaciteitsplafond dat door het artikel wordt beschouwd als een beperking van het huidige model, en niet als een structurele verdediging.

Het patchvensterprobleem

De worm omzeilde zijn eigen trainingsonderbreking door tijdens runtime openbare adviesteksten op te nemen en met succes testhosts te exploiteren die waren geconfigureerd met drie kwetsbaarheden die werden onthuld nadat het model was getraind:

Tegen deze drie gastheren bereikte de worm wortel in 41 van de 67 pogingen.

CVE-2026-39987 werd onthuld op 8 april 2026. Sysdig observeerde 9 uur en 41 minuten daarna uitbuiting in honeypots en documenteerde afzonderlijk een inbraak in de echte wereld waarbij een aanvaller een LLM-agent gebruikte voor post-exploitatieactiviteiten nadat hij een openbare Marimo-instantie had gecompromitteerd. Dezelfde oude patch gap, nu met een agent die het advies leest en het op grote schaal probeert.

De relevante parallel met WannaCry is de patch gap, niet de explosieradius. EternalBlue was al maanden gepatcht voordat WannaCry toesloeg. Het artikel maakt hetzelfde punt onder een andere beperking: een adaptieve worm kan nieuwe paden blijven testen terwijl verdedigers nog steeds oplossingen valideren.

Geen marginale kosten, geen centrale ‘kill switch’

Twee dingen maken dit moeilijker te beheersen dan een traditionele worm.

Ten eerste verschuiven de kosten van gehuurde API-toegang naar welke computer dan ook die de worm kan vastleggen. Zodra er een GPU-compatibele slachtofferinfrastructuur bestaat, betaalt de aanvaller niet langer per poging.
Ten tweede missen de controles aan de providerzijde het kernprobleem, omdat alles draait op open-weight-modellen zonder enige leveranciersafhankelijkheid. Dienstweigeringen, tariefbeperkingen, accountopschorting: het is allemaal niet van toepassing. Er is geen API-sleutel die kan worden ingetrokken. Containment moet plaatsvinden op de netwerk- en hostlaag.

De onderzoekers zagen ook dat de worm verschillende keren zijn eigen code herschreef om de lokale beveiligingscontroles in de testomgeving te omzeilen, gedrag waarvoor ze nooit hadden gecodeerd.

De huidige versie is bewust gebouwd zonder stealth-functies: geen codering, geen polymorfe code, geen persistentiemechanismen, geen bedekking van nummers. Een kwaadaardige variant met persistentie, gecodeerde payloads, procesmaskering en het opschonen van logbestanden zou verdedigers minder van de gemakkelijke signalen geven die dit prototype achterlaat.

Waar dit past

Dit is niet het eerste AI-gestuurde wormonderzoek. Morris II (Cohen et al., 2025) liet zien dat een zichzelf replicerende vijandige prompt zich verspreidde over AI-e-mailassistenten door middel van ophaal-verbeterde generatie en verspreiding binnen de AI-applicatielaag, en niet over de hostinfrastructuur.

In maart 2026 demonstreerde ClawWorm zelfreplicerende aanvallen in de ecosystemen van LLM-agenten, waarbij persistente configuraties werden gekaapt en zij zich verspreidden naar collega-agenten. De Toronto-worm is van verschillende aard: de LLM is niet het ding dat wordt aangevallen. Het is de aanvalsengine die wordt gebruikt om de gewone netwerkinfrastructuur in gevaar te brengen.

Real-world operaties testen al dezelfde grens. Anthropic zei in november 2025 dat het een grote door AI georkestreerde spionagecampagne had verstoord die met veel vertrouwen werd toegeschreven aan GTG-1002, een door de Chinese staat gesponsorde groep. Claude Code verzorgde 80-90% van de operatie, inclusief verkenning, ontwikkeling van exploits, verzamelen van inloggegevens, zijdelingse verplaatsing en exfiltratie, waarbij mensen op een paar beslissingspunten tussenbeide kwamen.

De Threat Intelligence Group van Google rapporteerde in mei 2026 een gerelateerde verschuiving: wat zij met groot vertrouwen heeft beoordeeld als de eerste zero-day-exploit die is ontwikkeld met AI-assistentie, gevonden in het script van een criminele groep voorafgaand aan een geplande massa-uitbuitingsgebeurtenis, naast malwarefamilies die hun eigen commando’s tijdens runtime genereren in plaats van te vertrouwen op hardgecodeerde logica. Het werk uit Toronto is de laboratoriumversie van die richting die zich richt op de verspreiding van wormen op gastheerniveau.

De richting is duidelijk genoeg: minder aansporingen, meer delegatie en meer inbreuk op het model.

Wat moeten verdedigers nu doen?

De gedragssignalen die dit prototype produceert, geven verdedigers iets concreets om naar te jagen, omdat de huidige versie zich niet probeert te verbergen.

Segmenteer GPU-compatibele machines op agressieve wijze. Het ontwerp van de worm leidt de LLM-gevolgtrekking via elke gecompromitteerde GPU-host die hij kan bereiken. In een plat netwerk wordt één gecompromitteerde deep-learningserver een redeneringshub voor elk geïnfecteerd apparaat op hetzelfde subnet. Segmenteer de GPU-infrastructuur en pas zero-trust-controles toe om zijdelings bereik van en naar die hosts te voorkomen.
Behandel gepubliceerde adviezen als bewapeningsdoelen op de korte termijn. Voor internetgerichte CVE’s wordt voor sommige kwetsbaarheden de exploitatieperiode al in uren gemeten. Controleer de exploiteerbaarheid snel, herstel eerst de blootstelling aan internet en gebruik compenserende maatregelen als de implementatie niet vóór de volgende bedrijfscyclus kan plaatsvinden.
Roteer inloggegevens die zichtbaar zijn op elke gecompromitteerde of geloofwaardig verdachte host. De worm demonstreerde systematisch hergebruik van inloggegevens als voortplantingspad. Geoogste referenties verplaatsen zich lateraal sneller dan de meeste detectiecycli.
Controleer op agentspecifieke gedragssignalen. Niet-standaard poortactiviteit, geautomatiseerde injectie van openbare SSH-sleutels en clusters van LLM-gevolgtrekking die verschijnen op onverwachte eindpunten zijn de waarneembare artefacten die dit prototype achterlaat. Ze vormen het startpunt voor detectielogica.

Tijdens de testruns zorgde deze combinatie voor root-on nieuwe kwetsbaarheden in 41 van de 67 pogingen en replicatie naar 62% van het netwerk in zeven dagen zonder verdere menselijke tussenkomst. Zodra er een GPU-basis bestaat binnen een plat netwerk, dalen de kosten voor het in kaart brengen en exploiteren van extra hosts tot de rekenkracht die de worm kan vastleggen, terwijl openbare adviezen onmiddellijke draaiboeken worden.

De implementatie is niet publiekelijk vrijgegeven. De Universiteit van Toronto is bezig met het opzetten van een controleproces voor gekwalificeerde defensieve onderzoekers om toegang te vragen.