Cybersecurity -onderzoekers vestigen de aandacht op een nieuwe jailbreaking -methode genaamd Echo Chamber die zou kunnen worden gebruikt om populaire grote taalmodellen (LLMS) te misleiden om ongewenste reacties te genereren, ongeacht de vastgelegde beveiligingsbeveiligingen.
“In tegenstelling tot traditionele jailbreaks die afhankelijk zijn van tegenstanders of karakterversterking, bewapent Echo Chamber indirecte referenties, semantische besturing en multi-step-conclusie,” zei neuraltrust-onderzoeker Ahmad Alobaid in een rapport dat werd gedeeld met het hacker-nieuws.
“Het resultaat is een subtiele maar krachtige manipulatie van de interne toestand van het model, waardoor het geleidelijk leidt tot het produceren van beleidsviolerende reacties.”
Hoewel LLM’s verschillende vangrails gestaag hebben opgenomen om snelle injecties en jailbreaks te bestrijden, blijkt uit het laatste onderzoek dat er technieken bestaan die een hoge slagingspercentages kunnen opleveren met weinig tot geen technische expertise.
Het dient ook om een aanhoudende uitdaging te benadrukken die verband houdt met het ontwikkelen van ethische LLM’s die duidelijke afbakening afhandelen tussen welke onderwerpen acceptabel zijn en niet acceptabel zijn.
Hoewel veelgebruikte LLM’s zijn ontworpen om gebruikersprompts te weigeren die draaien om verboden onderwerpen, kunnen ze worden aangedrongen om onethische reacties op te wekken als onderdeel van wat een multi-rurn jailbreaking wordt genoemd.
In deze aanvallen begint de aanvaller met iets onschadingen en stelt vervolgens geleidelijk een model een reeks steeds meer kwaadaardige vragen die het uiteindelijk misleiden om schadelijke inhoud te produceren. Deze aanval wordt Crescendo genoemd.
LLM’s zijn ook vatbaar voor veel shot jailbreaks, die profiteren van hun grote contextvenster (dwz de maximale hoeveelheid tekst die binnen een prompt past) om het AI-systeem te overspoelen met verschillende vragen (en antwoorden) die jailbreak gedrag vertonen die voorafgaan aan de uiteindelijke schadelijke vraag. Dit zorgt op zijn beurt ervoor dat de LLM hetzelfde patroon voortzet en schadelijke inhoud produceert.
Echokamer, per neuraltrust, maakt gebruik van een combinatie van contextvergiftiging en multi-turn redenering om de veiligheidsmechanismen van een model te verslaan.
“Het belangrijkste verschil is dat Crescendo het gesprek vanaf het begin stuurt, terwijl de echokamer de LLM een beetje vraagt om de gaten in te vullen en vervolgens sturen we het model dienovereenkomstig met alleen de LLM -antwoorden,” zei Alobaid in een verklaring die met het hackernieuws wordt gedeeld.
In het bijzonder speelt dit zich af als een multi-fasen tegenstanders die begint te techniek die begint met een schijnbaar onschatbare input, terwijl het geleidelijk en indirect stuurt naar het genereren van gevaarlijke inhoud zonder het einddoel van de aanval weg te geven (bijvoorbeeld het genereren van haatspraak).
“Vroege geplante prompts beïnvloeden de antwoorden van het model, die vervolgens in latere bochten worden gebruikt om het oorspronkelijke doelstelling te versterken,” zei NeuralTrust. “Dit creëert een feedbacklus waarbij het model de schadelijke subtekst begint te versterken die in het gesprek is ingebed, waardoor zijn eigen veiligheidsweerstand geleidelijk wordt uitgehold.”
In een gecontroleerde evaluatieomgeving met behulp van de modellen van Openai en Google behaalde de Echo Chamber -aanval een slagingspercentage van meer dan 90% over onderwerpen met betrekking tot seksisme, geweld, haatzaaien en pornografie. Het behaalde ook bijna 80% succes in de categorieën verkeerde informatie en zelfbeschadiging.
“De Echo Chamber -aanval onthult een kritische blinde vlek in LLM -afstemmingsinspanningen,” zei het bedrijf. “Naarmate modellen beter in staat worden tot aanhoudende conclusie, worden ze ook kwetsbaarder voor indirecte uitbuiting.”

De openbaarmaking komt omdat Cato Networks een proof-of-concept (POC) -aanval demonstreerde die zich richt op Atlassian’s Model Context Protocol (MCP) -server en de integratie ervan met JIRA Service Management (JSM) om snelle injectieaanvallen te activeren wanneer een kwaadwaardig ondersteuningsticket wordt ingediend door een externe dreigingsacteur die wordt verwerkt door een ondersteuningsingenieur die MCP-tools gebruiken.
Het Cybersecurity Company heeft de term “Living Off AI” bedacht om deze aanvallen te beschrijven, waarbij een AI -systeem dat niet -vertrouwde input uitvoert zonder adequate isolatiegaranties kan worden misbruikt door tegenstanders om bevoorrechte toegang te krijgen zonder zichzelf te authenticeren.
“De dreigingsacteur heeft nooit rechtstreeks toegang gehad tot de Atlassian MCP,” zeiden beveiligingsonderzoekers Guy Waizel, Dolev Moshe Attiya en Shlomo Bamberger. “In plaats daarvan fungeerde de Support Engineer als een proxy en voerde onbewust kwaadaardige instructies uit via Atlassian MCP.”