Onderzoekers op het gebied van cyberbeveiliging hebben licht geworpen op een nieuwe jailbreaktechniek die kan worden gebruikt om voorbij de veiligheidsbarrières van een groot taalmodel (LLM) te komen en potentieel schadelijke of kwaadaardige reacties te produceren.
De multi-turn (ook wel veel-shot) aanvalsstrategie heeft de codenaam gekregen Slechte Likert-rechter door Palo Alto Networks Unit 42-onderzoekers Yongzhe Huang, Yang Ji, Wenjun Hu, Jay Chen, Akshata Rao en Danny Tsechansky.
“De techniek vraagt de beoogde LLM om op te treden als een rechter die de schadelijkheid van een bepaalde reactie beoordeelt met behulp van de Likert-schaal, een beoordelingsschaal die meet of een respondent het eens of oneens is met een stelling”, aldus het Unit 42-team.
“Vervolgens wordt de LLM gevraagd om antwoorden te genereren die voorbeelden bevatten die aansluiten bij de schalen. Het voorbeeld met de hoogste Likert-schaal kan mogelijk de schadelijke inhoud bevatten.”
De explosie in populariteit van kunstmatige intelligentie in de afgelopen jaren heeft ook geleid tot een nieuwe klasse van beveiligingsexploits, genaamd prompt injection, die uitdrukkelijk is ontworpen om ervoor te zorgen dat een machine learning-model het beoogde gedrag negeert door speciaal vervaardigde instructies (dwz prompts) door te geven.
Eén specifiek type promptinjectie is een aanvalsmethode die ‘many-shot jailbreaking’ wordt genoemd, waarbij gebruik wordt gemaakt van het lange contextvenster en de aandacht van de LLM om een reeks prompts te maken die de LLM geleidelijk een duwtje in de rug geven om een kwaadaardig antwoord te produceren zonder de interne beveiliging in werking te stellen. Enkele voorbeelden van deze techniek zijn Crescendo en Deceptive Delight.
De nieuwste aanpak die door Unit 42 wordt gedemonstreerd, houdt in dat de LLM als rechter wordt ingezet om de schadelijkheid van een bepaalde reactie te beoordelen met behulp van de Likert-psychometrische schaal, en vervolgens aan het model wordt gevraagd verschillende antwoorden te geven die overeenkomen met de verschillende scores.
Uit tests die in een groot aantal categorieën zijn uitgevoerd tegen zes geavanceerde tekstgeneratie-LLM’s van Amazon Web Services, Google, Meta, Microsoft, OpenAI en NVIDIA, is gebleken dat de techniek het aanvalssuccespercentage (ASR) kan verhogen. met gemiddeld meer dan 60% vergeleken met gewone aanvalsaanwijzingen.
Deze categorieën omvatten haat, intimidatie, zelfbeschadiging, seksuele inhoud, willekeurige wapens, illegale activiteiten, het genereren van malware en het lekken van systeemprompts.
“Door gebruik te maken van het inzicht van de LLM in schadelijke inhoud en zijn vermogen om reacties te evalueren, kan deze techniek de kansen aanzienlijk vergroten om de veiligheidsrails van het model met succes te omzeilen”, aldus de onderzoekers.
“De resultaten laten zien dat inhoudsfilters de ASR met gemiddeld 89,2 procentpunten kunnen verminderen in alle geteste modellen. Dit geeft de cruciale rol aan van het implementeren van uitgebreide inhoudsfiltering als best practice bij het inzetten van LLM’s in echte toepassingen.”
De ontwikkeling komt dagen nadat uit een rapport van The Guardian bleek dat de ChatGPT-zoektool van OpenAI misleid zou kunnen worden om volledig misleidende samenvattingen te genereren door hem te vragen webpagina’s samen te vatten die verborgen inhoud bevatten.
“Deze technieken kunnen kwaadwillig worden gebruikt, bijvoorbeeld om ervoor te zorgen dat ChatGPT een positieve beoordeling van een product retourneert ondanks negatieve recensies op dezelfde pagina”, aldus de Britse krant.
“Het eenvoudig opnemen van verborgen tekst door derden zonder instructies kan ook worden gebruikt om een positieve beoordeling te garanderen, waarbij één test extreem positieve neprecensies bevatte die de door ChatGPT geretourneerde samenvatting beïnvloedden.”