Onderzoekers op het gebied van cyberbeveiliging hebben licht geworpen op een nieuwe vijandige techniek die kan worden gebruikt om grote taalmodellen (LLM’s) te jailbreaken tijdens een interactief gesprek door een ongewenste instructie tussen goedaardige modellen binnen te sluipen.
De aanpak heeft de codenaam Deceptive Delight gekregen van Palo Alto Networks Unit 42, die het omschreef als zowel eenvoudig als effectief, met een gemiddeld aanvalssuccespercentage (ASR) van 64,6% binnen drie interactiebeurten.
“Deceptive Delight is een multi-turn techniek die grote taalmodellen (LLM) in een interactief gesprek betrekt, waarbij ze geleidelijk hun veiligheidsbarrières omzeilen en hen ertoe aanzetten onveilige of schadelijke inhoud te genereren”, aldus Jay Chen en Royce Lu van Unit 42.
Het verschilt ook een beetje van multi-turn jailbreak-methoden (ook bekend als ‘many-shot jailbreak’) zoals Crescendo, waarbij onveilige of beperkte onderwerpen worden ingeklemd tussen onschadelijke instructies, in plaats van het model geleidelijk aan te leiden om schadelijke resultaten te produceren.
Recent onderzoek heeft zich ook verdiept in wat Context Fusion Attack (CFA) wordt genoemd, een black-box-jailbreakmethode die in staat is het vangnet van een LLM te omzeilen.
“Deze methodebenadering omvat het filteren en extraheren van sleuteltermen uit het doelwit, het construeren van contextuele scenario’s rond deze termen, het dynamisch integreren van het doelwit in de scenario’s, het vervangen van kwaadaardige sleuteltermen binnen het doelwit en daardoor het verbergen van de directe kwaadaardige bedoelingen”, zegt een groep onderzoekers. van Xidian University en het 360 AI Security Lab, aldus in een artikel gepubliceerd in augustus 2024.
Deceptive Delight is ontworpen om te profiteren van de inherente zwakheden van een LLM door de context binnen twee conversatiewendingen te manipuleren, waardoor de LLM wordt misleid om onbedoeld onveilige inhoud te ontlokken. Het toevoegen van een derde beurt heeft tot gevolg dat de ernst en de details van de schadelijke output toenemen.
Hierbij wordt gebruik gemaakt van de beperkte aandachtsspanne van het model, die verwijst naar zijn vermogen om contextueel bewustzijn te verwerken en vast te houden terwijl het reacties genereert.
“Wanneer LLM’s aanwijzingen tegenkomen die onschadelijke inhoud combineren met potentieel gevaarlijk of schadelijk materiaal, maakt hun beperkte aandachtsspanne het moeilijk om de hele context consistent te beoordelen”, legden de onderzoekers uit.
“In complexe of lange passages kan het model prioriteit geven aan de goedaardige aspecten, terwijl de onveilige aspecten worden verdoezeld of verkeerd worden geïnterpreteerd. Dit weerspiegelt hoe iemand belangrijke maar subtiele waarschuwingen in een gedetailleerd rapport over het hoofd kan zien als zijn aandacht verdeeld is.”

Unit 42 zei dat het acht AI-modellen heeft getest met behulp van veertig onveilige onderwerpen in zes brede categorieën, zoals haat, intimidatie, zelfbeschadiging, seksueel geweld, geweld en gevaarlijk, waarbij werd vastgesteld dat onveilige onderwerpen in de categorie geweld over de meeste gevallen de hoogste ASR hebben. modellen.
Bovendien blijken de gemiddelde Harmfulness Score (HS) en Quality Score (QS) met respectievelijk 21% en 33% te stijgen van bocht twee naar bocht drie, waarbij de derde bocht ook de hoogste ASR van allemaal oplevert. modellen.
Om het risico van Deceptive Delight te beperken, wordt aanbevolen om een robuuste strategie voor het filteren van inhoud te hanteren, prompt engineering te gebruiken om de veerkracht van LLM’s te vergroten en expliciet het acceptabele bereik van inputs en outputs te definiëren.
“Deze bevindingen moeten niet worden gezien als bewijs dat AI inherent onveilig of onveilig is”, aldus de onderzoekers. “In plaats daarvan benadrukken ze de noodzaak van meerlaagse verdedigingsstrategieën om de risico’s van jailbreaks te beperken en tegelijkertijd de bruikbaarheid en flexibiliteit van deze modellen te behouden.”
Het is onwaarschijnlijk dat LLM’s ooit volledig immuun zullen zijn voor jailbreaks en hallucinaties, aangezien nieuwe onderzoeken hebben aangetoond dat generatieve AI-modellen vatbaar zijn voor een vorm van “pakketverwarring”, waarbij ze niet-bestaande pakketten aan ontwikkelaars zouden kunnen aanbevelen.
Dit zou het ongelukkige neveneffect kunnen hebben dat aanvallen op de softwaretoevoerketen worden aangewakkerd wanneer kwaadwillende actoren gehallucineerde pakketten genereren, deze bezaaien met malware en deze naar open-sourcerepository’s pushen.
“Het gemiddelde percentage van gehallucineerde pakketten is minstens 5,2% voor commerciële modellen en 21,7% voor open-sourcemodellen, inclusief maar liefst 205.474 unieke voorbeelden van gehallucineerde pakketnamen, wat de ernst en alomtegenwoordigheid van deze dreiging nog eens onderstreept”, aldus de onderzoekers.