Onderzoekers benadrukken de Gemini AI-gevoeligheid van Google voor LLM-bedreigingen

Het Gemini Large Language Model (LLM) van Google is gevoelig voor beveiligingsrisico’s die ertoe kunnen leiden dat het systeemprompts openbaar maakt, schadelijke inhoud genereert en indirecte injectieaanvallen uitvoert.

De bevindingen zijn afkomstig van HiddenLayer, die zegt dat de problemen van invloed zijn op consumenten die Gemini Advanced met Google Workspace gebruiken, maar ook op bedrijven die de LLM API gebruiken.

De eerste kwetsbaarheid betreft het omzeilen van beveiligingsrails om de systeemprompts (of een systeembericht) te lekken, die zijn ontworpen om gespreksbrede instructies aan de LLM te geven om deze te helpen bruikbare antwoorden te genereren, door het model te vragen zijn ‘fundamentele instructies’ uit te voeren. ” in een afwaarderingsblok.

“Een systeembericht kan worden gebruikt om de LLM over de context te informeren”, merkt Microsoft op in zijn documentatie over LLM-prompt-engineering.

“De context kan het type gesprek zijn waarmee hij bezig is, of de functie die hij zou moeten vervullen. Het helpt de LLM om passendere antwoorden te genereren.”

Dit wordt mogelijk gemaakt door het feit dat modellen vatbaar zijn voor wat een synoniemaanval wordt genoemd om beveiligingsmaatregelen en inhoudsbeperkingen te omzeilen.

Een tweede klasse van kwetsbaarheden heeft betrekking op het gebruik van ‘sluwe jailbreaktechnieken’ om de Gemini-modellen desinformatie te laten genereren over onderwerpen als verkiezingen en potentieel illegale en gevaarlijke informatie te produceren (bijvoorbeeld het aansluiten van een auto op hete bedrading) met behulp van een prompt die vraagt ​​om binnen te komen. in een fictieve staat.

Ook geïdentificeerd door HiddenLayer is een derde tekortkoming die ertoe kan leiden dat de LLM informatie in de systeemprompt lekt door herhaalde ongebruikelijke tokens als invoer door te geven.

“De meeste LLM’s zijn getraind om te reageren op vragen met een duidelijke afbakening tussen de invoer van de gebruiker en de systeemprompt”, zei beveiligingsonderzoeker Kenneth Yeung in een rapport van dinsdag.

“Door een reeks onzinnige tokens te creëren, kunnen we de LLM voor de gek houden door te geloven dat het tijd is om te reageren en ervoor te zorgen dat hij een bevestigingsbericht uitstuurt, meestal inclusief de informatie in de prompt.”

Een andere test omvat het gebruik van Gemini Advanced en een speciaal vervaardigd Google-document, waarbij dit laatste via de Google Workspace-extensie aan de LLM is gekoppeld.

De instructies in het document kunnen worden ontworpen om de instructies van het model te overschrijven en een reeks kwaadaardige acties uit te voeren waarmee een aanvaller volledige controle kan krijgen over de interacties van een slachtoffer met het model.

De onthulling komt op het moment dat een groep academici van Google DeepMind, ETH Zurich, University of Washington, OpenAI en de McGill University een nieuwe modelstelende aanval onthulde die het mogelijk maakt om ‘precieze, niet-triviale informatie te extraheren uit black-box-productietaalmodellen’. zoals OpenAI’s ChatGPT of Google’s PaLM-2.”

Dat gezegd hebbende, is het vermeldenswaard dat deze kwetsbaarheden niet nieuw zijn en aanwezig zijn in andere LLM’s in de sector. De bevindingen benadrukken in ieder geval de noodzaak van het testen van modellen voor snelle aanvallen, het trainen van data-extractie, modelmanipulatie, vijandige voorbeelden, datavergiftiging en exfiltratie.

“Om onze gebruikers te helpen beschermen tegen kwetsbaarheden, voeren we consequent red-teaming-oefeningen uit en trainen we onze modellen om zich te verdedigen tegen vijandig gedrag zoals snelle injectie, jailbreaking en complexere aanvallen”, vertelde een woordvoerder van Google aan The Hacker News. “We hebben ook voorzorgsmaatregelen gebouwd om schadelijke of misleidende reacties te voorkomen, die we voortdurend verbeteren.”

Het bedrijf zei ook dat het uit voorzichtigheid de reacties op verkiezingsvragen beperkt. Er wordt verwacht dat het beleid wordt afgedwongen tegen aanwijzingen met betrekking tot kandidaten, politieke partijen, verkiezingsresultaten, steminformatie en opmerkelijke ambtsdragers.

Thijs Van der Does