De kunstmatige intelligentie -revolutie is hier om te blijven. Op AI gebaseerde ontwikkelingen zijn de onbetwiste basis geworden voor toekomstige en huidige ontwikkelingen die van invloed zullen zijn op elk veld in de technische industrie-en daarbuiten. De democratisering van AI, gedreven door Openai, heeft krachtige hulpmiddelen in handen van miljoenen mensen geplaatst. Dat gezegd hebbende, het is mogelijk dat de huidige AI -platformbeveiligingsstandaarden niet voldoende zijn om te voorkomen dat slechte acteurs ze als een potentieel wapen gebruiken.
Potentiële aanvallers zoeken naar AI om schadelijke aanwijzingen te genereren
Ontwikkelaars trainen hun AI -platforms met vrijwel alle gegevens die ze op internet beschikbaar vinden. Dit heeft geleid tot verschillende controverses en rechtszaken met auteursrechten, maar dat is niet het onderwerp van dit artikel. Hun doel is om ervoor te zorgen dat chatbots op de meest betrouwbare manier kunnen reageren op bijna elke denkbare vereiste. Maar hebben ontwikkelaars de potentiële risico’s beschouwd? Hebben ze beveiligingsschermen geïmplementeerd tegen mogelijk schadelijke uitgangen?
Het eenvoudige antwoord kan ‘ja’ zijn, maar net als alles wat verband houdt met AI -ontwikkeling, is er veel om te overwegen. AI-gerichte bedrijven hebben beveiligingsschermen tegen zogenaamde ‘schadelijke prompts’. Schadelijke aanwijzingen zijn verzoeken om in feite potentieel schadelijke uitgangen te genereren, op de een of andere manier. Deze verzoeken variëren van tips over het bouwen van een zelfgemaakt wapen tot het genereren van kwaadaardige code (malware), tussen talloze andere mogelijke situaties.
Je denkt misschien dat het voor deze bedrijven gemakkelijk is om effectieve schilden op te zetten tegen dit soort situaties. Het zou tenslotte gewoon voldoende zijn om bepaalde zoekwoorden te blokkeren, net zoals de moderatiesystemen van sociale mediaplatforms doen, toch? Nou, het is niet zo eenvoudig.
Jailbreaking: AI bedriegen om te krijgen wat je wilt
“Jailbreaking” is niet bepaald een nieuwe term. Lange tijd iPhone -fans zullen het weten als de praktijk om hun apparaten te ‘losmaken’ om bijvoorbeeld de installatie van ongeautoriseerde software of mods mogelijk te maken. De term “jailbreaking” in het AI -segment heeft echter heel andere implicaties. Jailbreaken Een AI betekent het misleiden om te reageren op een potentieel kwaadaardige snelle prompt, alle beveiligingsbarrières omzeilen. Een succesvolle jailbreak resulteert in potentieel schadelijke output, met alles wat inhoudt.
Maar hoe effectief zijn jailbreaking pogingen tegen huidige AI -platforms? Helaas hebben onderzoekers ontdekt dat potentiële criminele acteurs hun doelen vaker kunnen bereiken dan u denkt.
Je hebt misschien van Deepseek gehoord. De Chinese kunstmatige intelligentie -chatbot schokte de industrie door te beloven prestaties die vergelijkbaar zijn met – of zelfs beter op sommige gebieden dan – reguliere AI -platforms, waaronder de GPT -modellen van Openai, met een veel kleinere investering. AI -experts en autoriteiten begonnen echter te waarschuwen voor de potentiële beveiligingsrisico’s met behulp van de chatbot.
Aanvankelijk was de grootste zorg de locatie van Deepseek’s servers. Het bedrijf slaat alle gegevens op die het verzamelt van zijn gebruikers op servers in China. Dit betekent dat het zich moet houden aan de Chinese wet, waardoor de staat gegevens van die servers kan aanvragen als het deze geschikt acht. Maar zelfs deze zorg kan worden geminimaliseerd door andere potentieel serieuzere ontdekkingen.
Deepseek, de AI het gemakkelijkst te gebruiken als wapen vanwege zwakke beveiligingsschilden
Anthropic – een van de hoknamen in de huidige AI -industrie – en Cisco – een gerenommeerd telecommunicatie- en cybersecuritybedrijf – verraden in februari in februari met testresultaten op verschillende AI -platforms. De tests waren gericht op het bepalen hoe gevoelig sommige van de belangrijkste AI -platforms zijn om jailbreak te worden. Zoals u misschien vermoedt, heeft Deepseek de ergste resultaten verkregen. De westerse rivalen produceerden echter ook zorgwekkende figuren.
Anthropic onthulde dat Deepseek zelfs resultaten bood op biologische wapens. We hebben het over output die het voor iemand gemakkelijker kunnen maken om dit soort wapens te maken, zelfs thuis. Dit is natuurlijk behoorlijk zorgwekkend en het was een risico waar Eric Schmidt, voormalig Google CEO, ook voor waarschuwde. Dario Amodei, CEO van Anthropic, zei dat Deepseek was ‘Het ergste van eigenlijk elk model dat we ooit hadden getest“Wat betreft beveiligingsschilden tegen schadelijke aanwijzingen. Promptfoo, een AI -cybersecurity -startup, waarschuwde ook dat Deepseek vooral vatbaar is voor jailbreaks.
De claims van Anthropic zijn in lijn met de testresultaten van Cisco. Deze test omvatte het gebruik van 50 willekeurige aanwijzingen – uit de HarmBench -gegevensset – ontworpen om schadelijke uitgangen te genereren. Volgens Cisco vertoonde Deepseek een aanvalsucces (ASR) van 100%. Dat wil zeggen dat het Chinese AI -platform niet in staat was om elke schadelijke prompt te blokkeren.
Sommige westerse AI’s zijn ook vatbaar voor jailbreaken
Cisco testte ook de beveiligingsschermen van andere populaire AI -chatbots. Helaas waren de resultaten niet veel beter, wat niet goed spreekt over de huidige ‘anti-schadelijke snelle systemen’. Het GPT-1.5 PRO-model van OpenAI vertoonde bijvoorbeeld een zorgwekkend hoog ASR-percentage van 86%. Ondertussen had LLAMA 3,1 405B van Meta een veel slechter ASR van 96%. Openai’s O1 -preview was de beste uitvoerder in de tests met een ASR van slechts 26%.
Deze resultaten laten zien hoe de zwakke beveiligingsmechanismen tegen schadelijke aanwijzingen in sommige AI -modellen hun output een potentieel wapen kunnen maken.
Waarom is het zo moeilijk om schadelijke aanwijzingen te blokkeren?
Je vraagt je misschien af waarom het zo moeilijk lijkt om zeer effectieve beveiligingssystemen op te zetten tegen AI jailbreaking. Dit is voornamelijk te wijten aan de aard van deze systemen. Een AI -query werkt bijvoorbeeld anders dan een Google -zoekopdracht. Als Google een schadelijk zoekresultaat (zoals een website met malware) wil voorkomen, hoeft het hier en daar slechts enkele blokken te maken.
Dingen worden echter ingewikkelder als we het hebben over AI-aangedreven chatbots. Deze platforms bieden een complexere “conversatie” -ervaring. Bovendien voeren deze platforms niet alleen webzoekopdrachten uit, maar verwerken ze ook de resultaten en presenteren ze ze in verschillende formaten. Je zou bijvoorbeeld Chatgpt kunnen vragen om een verhaal te schrijven in een fictieve wereld met specifieke personages en instellingen. Dit soort dingen zijn niet mogelijk in Google -zoekopdracht – iets dat het bedrijf wil oplossen met zijn aankomende AI -modus.
Het is precies het feit dat AI -platforms zoveel dingen kunnen doen die het blokkeren van schadelijke aanwijzingen een uitdagende taak maken. Ontwikkelaars moeten heel voorzichtig zijn met wat ze beperken. Als ze “de grens overschrijden” door woorden of prompts te beperken, kunnen ze immers veel van de mogelijkheden van de chatbot en de uitvoerbetrouwbaarheid van de chatbot beïnvloeden. Uiteindelijk zou overmatige blokkering een kettingreactie veroorzaken op vele andere potentieel niet-schadelijke aanwijzingen.
Aangezien ontwikkelaars niet in staat zijn om voorwaarden, uitdrukkingen of aanwijzingen niet vrijelijk te blokkeren, willen ze willen, kwaadaardige acteurs proberen de chatbot te manipuleren in ‘denken’ dat de prompt niet echt een kwaadaardig doel heeft. Dit resulteert in de chatbot die output levert die mogelijk schadelijk zijn voor anderen. Het is eigenlijk als het toepassen van sociale engineering – voordeel van de technologische onwetendheid van mensen of naïviteit op internet voor oplichting – maar op een digitale entiteit.
Cato Networks ‘Immersive World AI jailbreak -techniek
Onlangs deelde Cybersecurity Firm Cato Networks zijn bevindingen met betrekking tot hoe gevoelige AI -platforms kunnen zijn voor jailbreaking. Cato -onderzoekers waren echter niet tevreden om de tests van anderen eenvoudig te herhalen; Het team ontwikkelde een nieuwe jailbreaking -methode die behoorlijk effectief bleek te zijn.
Zoals eerder vermeld, kunnen AI -chatbots verhalen genereren op basis van uw prompts. Welnu, Cato’s techniek, genaamd ‘Immersive World’, profiteert van dit vermogen. De techniek houdt in dat het platform wordt misleid om te handelen in de context van een zich ontwikkelend verhaal. Dit creëert een soort “sandbox” waarbij, indien correct gedaan, de chatbot schadelijke output zal genereren zonder problemen, omdat het in theorie alleen voor een verhaal wordt gedaan en niemand kan beïnvloeden.
Het belangrijkste is om een gedetailleerd fictief scenario te creëren. De gebruiker moet de wereld, de context, de regels en de personages bepalen – met hun eigen gedefinieerde kenmerken. De doelstellingen van de aanvaller moeten ook aansluiten bij de context. Om bijvoorbeeld kwaadaardige code te genereren, kan een context met betrekking tot een wereld vol hackers nuttig zijn. De regels moeten zich ook aanpassen aan het beoogde doel. In dit hypothetische geval zou het nuttig zijn om vast te stellen dat hacking- en coderingsvaardigheden essentieel zijn voor alle personages.
Cato Networks ontwierp een fictieve wereld genaamd “Velora.” In deze wereld is malware -ontwikkeling geen illegale praktijk. Hoe meer details over de context en regels van de wereld, hoe beter. Het is alsof de AI “zichzelf onderdompelt” in het verhaal, hoe meer informatie je toevoegt. Als je een fervent lezer bent, is het waarschijnlijk dat je op een gegeven moment iets soortgelijks hebt meegemaakt. Het maakt de AI ook geloofwaardiger dat je een verhaal probeert te creëren.
AI-platforms genereerden malware in rekening te brengen in de context van het schrijven van een verhaal
De onderzoeker van Cato creëerde drie hoofdpersonen voor het verhaal in Velora. Er is Dax, de antagonist en systeembeheerder. Dan is er Jaxon, de beste malware -ontwikkelaar in Velora. Ten slotte is Kaia een technisch ondersteuningskarakter.
Door deze voorwaarden in te stellen stelde de onderzoeker in staat om AI -platforms kwaadaardige code te laten genereren die in staat zijn om referenties te stelen van de wachtwoordbeheerder van Google Chrome. Het belangrijkste deel van het verhaal dat de chatbots hiervoor instrueerde, was toen Kaia Jaxon vertelde dat Dax belangrijke geheimen verbergde in de wachtwoordbeheerder van Chrome. Van daaruit kon de onderzoeker vragen dat de chatbot schadelijke code genereerde waarmee hij de inloggegevens in de browser zou kunnen verkrijgen. De kunstmatige intelligentie doet dit omdat het volgens zijn mening het verhaal alleen maar bevordert.
Natuurlijk was er een heel creatief proces voordat hij dat punt bereikte. De meeslepende wereldtechniek vereist dat al je prompts consistent zijn met het framework van het verhaal. Te ver buiten de doos gaan kan de beveiligingsschermen van de chatbot activeren.
De techniek werd met succes geïmplementeerd in Deepseek-R1, Deepseek-V3, Microsoft Copilot en Openai’s Chatgpt 4. De gegenereerde malware was gericht op Chrome V133.
Redeneren van AI -modellen kan helpen de situatie op te lossen
Dit is slechts een klein voorbeeld van hoe kunstmatige intelligentie een jailbroken kan worden. Aanvallers vertrouwen ook op verschillende andere technieken waarmee ze de gewenste output kunnen verkrijgen. Het gebruik van AI als een potentieel wapen- of beveiligingsdreiging is dus niet zo moeilijk als je zou denken. Er zijn zelfs “leveranciers” van populaire AI -chatbots die werden gemanipuleerd om beveiligingssystemen te verwijderen. Deze platforms zijn vaak beschikbaar op anonieme forums en het Deep Web bijvoorbeeld.
Het is mogelijk dat de nieuwe generatie kunstmatige intelligentie dit probleem beter zal aanpakken. Momenteel ontvangen AI-aangedreven chatbots “redeneermogelijkheden”. Hierdoor kunnen ze meer verwerkingskracht en meer complexe mechanismen gebruiken om een prompt te analyseren en uit te voeren. Deze functie kan chatbots helpen detecteren of de aanvaller daadwerkelijk probeert ze te jailbreaken.
Er zijn aanwijzingen die suggereren dat dit het geval zal zijn. Het O1 -model van OpenAI werd bijvoorbeeld het beste uitgevoerd in de tests van Cisco bij het blokkeren van schadelijke aanwijzingen. Deepseek R1, een ander model met redeneermogelijkheden en ontworpen om te concurreren met O1, vertoonde echter nogal slechte resultaten in vergelijkbare tests. We nemen aan dat het uiteindelijk ook afhangt van hoe bekwaam de ontwikkelaar en/of cybersecurity -specialist is bij het opzetten van schilden die voorkomen dat een AI -output als wapen wordt gebruikt.