Meer dan 100 kwaadaardige AI/ML-modellen gevonden op het Hugging Face Platform

Er zijn maar liefst 100 kwaadaardige modellen voor kunstmatige intelligentie (AI)/machine learning (ML) ontdekt in het Hugging Face-platform.

Deze omvatten gevallen waarin het laden van een pickle-bestand leidt tot het uitvoeren van code, aldus JFrog, een beveiligingsbedrijf voor de toeleveringsketen van software.

“De payload van het model geeft de aanvaller een granaat op de gecompromitteerde machine, waardoor hij volledige controle kan krijgen over de machines van zijn slachtoffers via wat gewoonlijk een ‘achterdeur’ wordt genoemd”, aldus senior beveiligingsonderzoeker David Cohen.

“Deze stille infiltratie zou mogelijk toegang kunnen verlenen tot kritieke interne systemen en de weg kunnen vrijmaken voor grootschalige datalekken of zelfs bedrijfsspionage, waardoor niet alleen individuele gebruikers worden getroffen, maar mogelijk hele organisaties over de hele wereld, terwijl de slachtoffers zich totaal niet bewust zijn van hun gecompromitteerde staat. .”

Concreet initieert het frauduleuze model een omgekeerde shell-verbinding met 210.117.212[.]93, een IP-adres dat behoort tot het Korea Research Environment Open Network (KREONET). Er is waargenomen dat andere opslagplaatsen met dezelfde payload verbinding maakten met andere IP-adressen.

In één geval drongen de auteurs van het model er bij gebruikers op aan het niet te downloaden, waardoor de mogelijkheid ontstond dat de publicatie het werk zou kunnen zijn van onderzoekers of AI-beoefenaars.

“Een fundamenteel principe in veiligheidsonderzoek is echter het niet publiceren van echt werkende exploits of kwaadaardige code”, aldus JFrog. “Dit principe werd geschonden toen de kwaadaardige code probeerde verbinding te maken met een echt IP-adres.”

De bevindingen onderstrepen eens te meer de dreiging die op de loer ligt in open-sourcerepository’s, die kunnen worden vergiftigd voor snode activiteiten.

Van supply chain-risico’s tot zero-click-wormen

Ze komen ook omdat onderzoekers efficiënte manieren hebben bedacht om aanwijzingen te genereren die kunnen worden gebruikt om schadelijke reacties uit grote taalmodellen (LLM’s) te ontlokken met behulp van een techniek die beam search-based adversarial aanval (BEAST) wordt genoemd.

In een gerelateerde ontwikkeling hebben beveiligingsonderzoekers een zogenaamde generatieve AI-worm ontwikkeld, Morris II genaamd, die in staat is gegevens te stelen en malware via meerdere systemen te verspreiden.

Morris II, een variant op een van de oudste computerwormen, maakt gebruik van vijandige, zelfreplicerende aanwijzingen die zijn gecodeerd in invoer zoals afbeeldingen en tekst die, wanneer ze worden verwerkt door GenAI-modellen, hen ertoe kunnen aanzetten “de invoer als uitvoer te repliceren (replicatie) en zich te engageren in kwaadaardige activiteiten (payload),’ zeggen beveiligingsonderzoekers Stav Cohen, Ron Bitton en Ben Nassi.

Nog verontrustender is dat de modellen kunnen worden ingezet om kwaadaardige input te leveren aan nieuwe applicaties door gebruik te maken van de connectiviteit binnen het generatieve AI-ecosysteem.

De aanvalstechniek, genaamd ComPromptMized, vertoont overeenkomsten met traditionele benaderingen zoals bufferoverflows en SQL-injecties vanwege het feit dat de code in een query wordt ingebed en de gegevens worden ingebed in regio’s waarvan bekend is dat ze uitvoerbare code bevatten.

ComPromptMized heeft gevolgen voor toepassingen waarvan de uitvoeringsstroom afhankelijk is van de output van een generatieve AI-service, maar ook voor toepassingen die gebruik maken van Retrieval Augmented Generation (RAG), waarbij modellen voor het genereren van tekst worden gecombineerd met een component voor het ophalen van informatie om de antwoorden op zoekopdrachten te verrijken.

De studie is niet de eerste, en zal ook niet de laatste zijn, waarin het idee van snelle injectie wordt onderzocht als een manier om LLM’s aan te vallen en hen te misleiden tot het uitvoeren van onbedoelde acties.

Eerder hebben academici aanvallen gedemonstreerd waarbij beelden en audio-opnamen worden gebruikt om onzichtbare ‘vijandige verstoringen’ in multimodale LLM’s te injecteren, waardoor het model door de aanvaller gekozen tekst of instructies uitstuurt.

“De aanvaller kan het slachtoffer naar een webpagina met een interessante afbeelding lokken of een e-mail sturen met een audiofragment”, aldus Nassi, samen met Eugene Bagdasaryan, Tsung-Yin Hsieh en Vitaly Shmatikov, in een artikel dat eind vorig jaar werd gepubliceerd.

“Wanneer het slachtoffer de afbeelding of het fragment rechtstreeks in een geïsoleerde LLM invoert en er vragen over stelt, wordt het model gestuurd door door de aanvaller geïnjecteerde aanwijzingen.”

Begin vorig jaar ontdekte een groep onderzoekers van het Duitse CISPA Helmholtz Center for Information Security van de Saarland Universiteit en Sequire Technology ook hoe een aanvaller LLM-modellen zou kunnen misbruiken door op strategische wijze verborgen aanwijzingen in gegevens te injecteren (dat wil zeggen, indirecte promptinjectie) die het model waarschijnlijk zou doen. ophalen bij het reageren op gebruikersinvoer.