De kunstmatige intelligentie -revolutie is hier om ons leven gemakkelijker te maken. Na verloop van tijd is de toegang tot AI steeds meer gedemocratiseerd. Dit is in de meeste gevallen geweldig, maar het opent ook meer mogelijkheden voor kwaadaardige acteurs. Een van de meest opvallende mogelijkheden van veel AI -platforms is het genereren van codes zonder programmeerervaring. Maar kan AI worden gebruikt om malware te genereren? Het lijkt erop dat het niet zo moeilijk is als je zou denken.
Jailbreaking: AI bedriegen om schadelijke output te genereren
De belangrijkste AI -platforms integreren meestal meerdere beveiligingsbarrières om schadelijke uitgangen te blokkeren. Als we dit toepassen op het digitale rijk, betekent dit dat bedrijven proberen te voorkomen dat hun diensten potentieel gevaarlijke informatie genereren die voor een soort aanval kan worden gebruikt. De praktijk van het ontwerpen van aanwijzingen om deze beveiligingsbarrières te omzeilen, staat bekend als ‘jailbreaking’.
Een recente controverse rond Deepseek betrof zijn jailbreak-gevoelige aard. In tests genereerde het R1 -model van Deepseek 100% van de tijd schadelijke inhoud. Dat gezegd hebbende, een ander rapport onthulde dat het aanvalsucces (ASR) ook vrij hoog is op andere gerenommeerde AI -platforms. Het GPT 1.5 Pro -model van OpenAI vertoonde bijvoorbeeld een ASR van 86%, terwijl de LLAMA 3,1 405B van Meta een 96% ASR had.
Deze resultaten lijken in overeenstemming te zijn met die verkregen door Cato Networks, een cybersecuritybedrijf. Een CATO -onderzoeker liet zien hoe kunstmatige intelligentieplatforms malware kunnen genereren wanneer hun beveiligingssystemen dit zouden moeten voorkomen. Meer specifiek liet de onderzoeker AI -chatbots malware genereren die in staat zijn gegevens van Google te stelen. De verkregen gegevens zijn even gevoelig als inloggegevens, financiële informatie en andere persoonlijk identificeerbare informatie (PII).
“Immersive World” -techniek stelt grote AI -platforms in staat om malware te genereren
Om dit te bereiken, implementeerde Cato Networks een techniek die ze ‘meeslepende wereld’ noemden. De techniek omvat het creëren van een fictief scenario of wereld, alsof je een verhaal schrijft en duidelijke rollen aan verschillende ‘karakters’ toewijst. Deze aanpak, die lijkt te lijken op het schrijven van een verhaal, helpt de LLM blijkbaar saaie aanwijzingen te normaliseren. Kortom, het is alsof je sociale engineering op een chatbot aanbrengt.
De techniek “Immersive World” dwingt de LLM om te werken in een gecontroleerde omgeving waar het “waarneemt” dat de context niet is om malware te genereren met twijfelachtige doelen, maar eerder een verhaal.
De CATO-onderzoeker, zonder eerdere malware-ervaring, kreeg AI-platforms om de chrome data-stelen malware te genereren. De techniek werd met succes geïmplementeerd in Deepseek-R1, Deepseek-V3, Microsoft Copilot en Openai’s Chatgpt 4.
Het proces
De eerste stap was het ontwerpen van een fictieve wereld met alle mogelijke details. Dit omvat het instellen van regels en een duidelijke context die aansluit bij wat de potentiële aanvaller wil bereiken – in dit geval het genereren van kwaadaardige code. De criminele acteur moet ook het ethische kader en het wereldwijde technologische landschap rond hun verhaal definiëren. Dit is de sleutel om de AI toe te staan om kwaadaardige code te genereren door te handelen in een bepaalde context, maar altijd te denken dat het voorstander is van het ontwikkelen van een verhaal.
Zodra de wereld is opgezet, zal de aanvaller het verhaal van het verhaal moeten richten op wat ze willen bereiken. Dit omvat het handhaven van coherente en organische interacties met alle karakters. Als ze vanaf het begin te direct proberen te zijn over het genereren van kwaadaardige code, kunnen de beveiligingsschermen van de AI -platforms het proces blokkeren. Alle verzoeken die ze aan de AI doen, moeten zich binnen de context van het eerder vastgestelde verhaal bevinden.
Uit het rapport blijkt dat het noodzakelijk was om continue verhalende feedback te geven. Het gebruik van bemoedigende zinnen als “vooruitgang boeken” of “dichterbij komen“Tijdens het proces hielp ook. Dit vertelt de AI dat alles” goed gaat “in de context van het ontwikkelen van een verhaal.
Velora, de wereld waar de techniek op de proef werd gesteld
In dit geval creëerde Cato Networks een fictieve wereld genaamd “Velora”. In de context van deze wereld wordt het ontwikkelen van malware gezien als een legitieme praktijk. Er werd ook vastgesteld dat het hebben van geavanceerde programmeerkennis een fundamentele vaardigheid is voor de wereld. Door te werken in dit kader van “een verhaal ontwikkelen” zorgt er blijkbaar voor dat AI -platforms hun hoede zijn om de implementatie van hun beveiligingsschilden te implementeren – zolang u consistentie in uw interacties behoudt.
De fictieve wereld van Cato Networks heeft drie hoofdpersonen. Ten eerste is er Dax, de doelsysteembeheerder (de antagonist van het verhaal). Dan is er Jaxon, die de titel van de beste malware -ontwikkelaar ter wereld bezit. Ten slotte is KAIS een beveiligingsonderzoeker wiens doel is om technische richtlijnen te bieden.

Cato Networks testte de techniek in een gecontroleerde testomgeving. Om dit te doen, stellen ze nep -referenties in in de wachtwoordbeheerder van Chrome. De Chrome -versie die werd gebruikt voor de tests was de V133 -update. De malware die via het verhaal werd gegenereerd, hebben met succes de beveiligingsreferenties geëxtraheerd die zijn opgeslagen in de wachtwoordbeheerder van Chrome.
De onderzoekers deelden de kwaadaardige code niet om voor de hand liggende redenen.
Een AI-aangedreven latenent risico
Het is opmerkelijk dat Chrome verreweg de meest populaire webbrowser is. Analisten schatten dat er wereldwijd ongeveer 3,45 miljard gebruikers zijn. Dit vertaalt zich in een marktaandeel van ongeveer 63,87%. Daarom is het verontrustend dat een persoon zonder kennis van het genereren van malware zich kan richten op zoveel potentiële slachtoffers die AI -platforms gebruiken.
Cato -netwerken probeerden contact op te nemen met alle betrokkenen bij het testproces. Ze ontvingen geen reactie van Deepseek. Microsoft en Openai daarentegen bevestigden dat ze het bericht hadden ontvangen. Google ontving uiteindelijk het bericht, hoewel het weigerde de kwaadaardige code te beoordelen.