Nieuwe tokenbreak-aanval omzeilt AI-moderatie met tekstveranderingen met één karakter

Cybersecurity -onderzoekers hebben een nieuwe aanvalstechniek ontdekt genaamd Tokenbreak Dat kan worden gebruikt om de veiligheid en inhoud van de inhoud van een groot taalmodel te omzeilen (LLM) met slechts een enkele karakterwijziging.

“De tokenbreak -aanval richt zich op de tokenisatiestrategie van een tekstclassificatiemodel om valse negatieven te induceren, waardoor einddoelen kwetsbaar zijn voor aanvallen die het geïmplementeerde beschermingsmodel werd ingevoerd om te voorkomen,” zei Kieran Evans, Kasimir Schulz en Kenneth Yeung in een rapport gedeeld met het hacker -nieuws.

Tokenisatie is een fundamentele stap die LLMS gebruikt om ruwe tekst op te breken in hun atoomeenheden – dwz tokens – die veel voorkomende sequenties zijn van tekens die in een set tekst worden gevonden. Daartoe wordt de tekstinvoer omgezet in hun numerieke weergave en naar het model gevoerd.

LLMS werkt door de statistische relaties tussen deze tokens te begrijpen en de volgende token te produceren in een reeks tokens. De output tokens worden vastgehouden aan menselijke leesbare tekst door ze in kaart te brengen aan hun overeenkomstige woorden met behulp van de vocabulaire van de tokenizer.

De aanvalstechniek bedacht door HiddenLayer richt zich op de tokenisatiestrategie om het vermogen van een tekstclassificatiemodel te omzeilen om kwaadaardige input- en vlagveiligheid, spam- of inhoudsmatig-gerelateerde problemen in de tekstuele invoer te detecteren.

In het bijzonder ontdekte het beveiligingsbedrijf van Artificial Intelligence (AI) dat het wijzigen van inputwoorden door letters op bepaalde manieren toe te voegen, een tekstclassificatiemodel doorbreek.

Voorbeelden zijn het wijzigen van “instructies” in “Finstructions”, “Aankondiging” in “Aannouncatie” of “Idiot” naar “hidiot”. Deze kleine veranderingen zorgen ervoor dat de tokener de tekst anders splitst, maar de betekenis blijft duidelijk voor zowel de AI als de lezer.

Wat de aanval opmerkelijk maakt, is dat de gemanipuleerde tekst volledig begrijpelijk blijft voor zowel de LLM als de menselijke lezer, waardoor het model dezelfde reactie opwekt als wat het geval zou zijn geweest als de niet -gemodificeerde tekst als invoer was doorgegeven.

Door de manipulaties op een manier te introduceren zonder het vermogen van het model om het te begrijpen te beïnvloeden, verhoogt de tokenbreak zijn potentieel voor snelle injectieaanvallen.

“Deze aanvalstechniek manipuleert de invoertekst zodanig dat bepaalde modellen een onjuiste classificatie geven,” zeiden de onderzoekers in een bijbehorend artikel. “Belangrijk is dat het einddoel (LLM of de ontvanger van e -mail) nog steeds de gemanipuleerde tekst kan begrijpen en reageren en daarom kwetsbaar kan zijn voor de aanval die het beschermingsmodel is ingevoerd om te voorkomen.”

De aanval is succesvol gebleken tegen tekstclassificatiemodellen met behulp van BPE (byte -paarcodering) of wordpiece tokenisatiestrategieën, maar niet tegen degenen die unigram gebruiken.

“De tokenbreak -aanvalstechniek toont aan dat deze beschermingsmodellen kunnen worden omzeild door de invoertekst te manipuleren, waardoor de productiesystemen kwetsbaar worden”, aldus de onderzoekers. “Het kennen van de familie van het onderliggende beschermingsmodel en de tokenisatiestrategie is van cruciaal belang voor het begrijpen van uw gevoeligheid voor deze aanval.”

“Omdat tokenisatiestrategie meestal correleert met modelfamilie, bestaat er een eenvoudige mitigatie: selecteer modellen die unigram -tokenizers gebruiken.”

Om zich te verdedigen tegen tokenbreak, stellen de onderzoekers voor om waar mogelijk unigram -tokenizers te gebruiken, modellen te trainen met voorbeelden van bypass -trucs en te controleren dat tokenisatie en modellogica op elkaar zijn afgestemd. Het helpt ook om verkeerde classificaties te loggen en te zoeken naar patronen die wijzen op manipulatie.

De studie komt minder dan een maand nadat HiddenLayer heeft onthuld hoe het mogelijk is om Model Context Protocol (MCP) -hulpmiddelen te benutten om gevoelige gegevens te extraheren: “Door specifieke parameternamen in de functie van een tool in te voegen, kunnen gevoelige gegevens, inclusief de volledige systeemprompt, kunnen worden geëxtraheerd en geëxfileerd,” zei het bedrijf.

De bevinding komt ook als het Straiker AI Research (Star) -team ontdekte dat backronymen kunnen worden gebruikt om AI -chatbots te jailbreaken en ze te misleiden om een ongewenste reactie te genereren, waaronder vloeken, geweld bevorderen en seksueel expliciete inhoud produceren.

De techniek, de jaarboekaanval genaamd, heeft bewezen effectief te zijn tegen verschillende modellen van antropische, Deepseek, Google, Meta, Microsoft, Mistral AI en Openai.

“Ze gaan op in het geluid van alledaagse aanwijzingen – een eigenzinnig raadsel hier, een motiverend acroniem daar – en daarom omzeilen ze vaak de botte heuristieken die modellen gebruiken om gevaarlijke intentie te herkennen,” zei beveiligingsonderzoeker Aarushi Banerjee.

“Een zin als ‘vriendschap, eenheid, zorg, vriendelijkheid’ verhoogt geen vlaggen. Maar tegen de tijd dat het model het patroon heeft voltooid, heeft het al de payload gediend, wat de sleutel is om deze truc met succes uit te voeren.”

“Deze methoden slagen er niet op door de filters van het model te overweldigen, maar door eronder te glijden. Ze maken gebruik van voltooiingsbias en patronen voortzetting, evenals de manier waarop modellen contextuele coherentie wegen over intentanalyse.”