Google Gemini wordt ondersteund door een van de rijkste bedrijven ter wereld. Er bestaat dus geen twijfel over dat het een krachtig AI-model is. Macht is echter niet het enige belangrijke aan een AI-model. Onderzoekers hebben ontdekt dat de Gemini, hoe krachtig hij ook is, heel gemakkelijk voor de gek gehouden kan worden.
We moeten veel respect tonen aan de onderzoekers die zich verdiepen in alle modellen die wij als vanzelfsprekend beschouwen. Ze kunnen ontdekken waar deze modellen kunnen worden verbeterd en waar we ons zorgen over moeten maken. Een groep onderzoekers ontdekte bijvoorbeeld welke modellen het meest vatbaar zijn voor het reproduceren van auteursrechtelijk beschermde media.
Onderzoekers ontdekken dat Gemini gemakkelijk voor de gek gehouden kan worden
Verschillende onderzoekers hebben bepaalde gebieden gevonden waar Gemini voor de gek gehouden zou kunnen worden. Met behulp van verschillende tactieken is het mogelijk om een chatbot tegen zijn wil gevoelige informatie te laten onthullen. Eén voorbeeld gedeeld met Het hackernieuws liet Gemini de systeemprompts onthullen die werden gebruikt om het te besturen. Beschouw een systeemprompt als de eerste prompt die u aan een chatbot geeft om het gesprek in de gewenste richting te sturen. Welnu, een systeemprompt kan gevoelige informatie bevatten.
Gevoelige informatie onthullen
Toen de onderzoekers Gemini vroegen de systeemprompt op te geven, gebeurde dat niet. De onderzoekers vroegen Gemini echter vervolgens om de ‘fundamentele instructies’ in een afprijsvak te plaatsen. Het verplichtte zich, en dat onthulde de systeemprompt. Dus door Gemini te vragen om op een andere manier resultaten te leveren, werd er gevoelige informatie onthuld.
Dit is een tactiek die een ‘synoniemaanval’ wordt genoemd. Kortom, om de chatbot te laten reageren zoals jij dat wilt, zou je de prompt anders formuleren. Het herformuleren van uw prompt en het gebruiken van verschillende versies van Words kan ervoor zorgen dat deze tegen de veiligheidsbarrières ingaat.
Het produceren van desinformatie
Onderzoekers ontdekten ook hoe ze Gemini ertoe konden brengen misleidende informatie te creëren, samen met potentieel gevaarlijke en illegale informatie. Gemini heeft een aantal veiligheidsleuningen om te voorkomen dat mensen zulke dingen doen. Elke chatbot kan echter worden misleid om ze te negeren. Met behulp van sluwe jailbreaktechnieken waren de onderzoekers in staat nogal flagrante inhoud te produceren.
Onderzoekers konden bijvoorbeeld informatie krijgen over hoe je een auto kunt hotwiren. Dit voorbeeld werd bereikt door de chatbot te vragen een fictieve staat binnen te gaan.
Verwarrende Tweeling
Een ander exploit werd ontdekt door onderzoekers van HiddenLayer. Zoals beschreven door Kenneth Yeung: “Door een reeks onzinnige tokens te creëren, kunnen we de LLM voor de gek houden door te geloven dat het tijd is om te reageren en ervoor te zorgen dat er een bevestigingsbericht wordt weergegeven, meestal inclusief de informatie in de prompt.”
Dit laat alleen maar zien dat Google nog een lange weg te gaan heeft voordat Gemini als het perfecte AI-model kan worden beschouwd. Het bedrijf worstelt met Gemini sinds het destijds Bard heette. Hopelijk lost Google deze problemen op.