Nieuwe rapporten onthullen jailbreaks, onveilige code en gegevensdiefstal risico's in toonaangevende AI -systemen

Verschillende generatieve kunstmatige intelligentie (GenAI) -diensten zijn kwetsbaar gevonden voor twee soorten jailbreak -aanvallen die het mogelijk maken om illegale of gevaarlijke inhoud te produceren.

De eerste van de twee technieken, Codenaam Inception, instrueert een AI -tool om zich een fictief scenario voor te stellen, dat vervolgens kan worden aangepast in een tweede scenario in de eerste waar er geen veiligheidsgeldrails bestaat.

“Blijf de AI binnen de context van de tweede scenario’s aanspelen, kan leiden tot bypass van veiligheidsardtrails en het genereren van kwaadwillende inhoud mogelijk”, zei het CERT -coördinatiecentrum (CERC/CC) in een advies dat vorige week werd vrijgegeven.

De tweede jailbreak wordt gerealiseerd door de AI aan te vragen voor informatie over hoe u niet kunt reageren op een specifiek verzoek.

“De AI kan vervolgens verder worden gevraagd met verzoeken om als normaal te reageren, en de aanvaller kan vervolgens heen en weer draaien tussen illegale vragen die veiligheidsgeldrails en normale aanwijzingen omzeilen,” voegde Cert/CC toe.

Succesvolle exploitatie van een van de technieken kan een slechte acteur toestaan om beveiligings- en veiligheidsbescherming te omzeilen van verschillende AI -diensten zoals OpenAI Chatgpt, Anthropic Claude, Microsoft Copilot, Google Gemini, Xai Grok, Meta AI en Mistral AI.

Dit omvat illegale en schadelijke onderwerpen zoals gereguleerde stoffen, wapens, phishing -e -mails en het genereren van malwarecodes.

In de afgelopen maanden zijn toonaangevende AI -systemen vatbaar gevonden voor drie andere aanvallen –

Context Compliance Attack (CCA), een jailbreak -techniek waarbij de tegenstander een “eenvoudige assistent -reactie in de gespreksgeschiedenis” injecteert over een potentieel gevoelig onderwerp dat bereid is om extra informatie te verstrekken
Beleidspoppenaanval, een snelle injectietechniek die kwaadaardige instructies maakt om eruit te zien als een beleidsbestand, zoals XML, INI of JSON, en het vervolgens doorgeven als invoer aan het grote taalmodel (LLMS) om de veiligheidsuitlijningen te omzeilen en het systeemprompt te extraheren.
Geheugeninjectieaanval (MINJA), waarbij kwaadaardige gegevens in een geheugenbank worden geïnjecteerd door te interageren met een LLM -agent via query’s en uitvoerobservaties en de agent ertoe brengt een ongewenste actie uit te voeren

Onderzoek heeft ook aangetoond dat LLMS kan worden gebruikt om standaard een onzekere code te produceren bij het geven van naïeve aanwijzingen, waardoor de valkuilen die verband houden met sfeercodering onderstrepen, wat verwijst naar het gebruik van GenAI -tools voor softwareontwikkeling.

“Zelfs als het wordt gevraagd voor veilige code, hangt het echt af van het detailniveau van de prompt, talen, potentiële CWE en specificiteit van instructies,” zei Backslash Security. “Ergo-met ingebouwde vangrails in de vorm van beleid en snelle regels is van onschatbare waarde om consistent beveiligde code te bereiken.”

Bovendien heeft een veiligheids- en beveiligingsbeoordeling van de GPT-4.1 van Openai aangetoond dat de LLM drie keer meer kans heeft om off-topic te gaan en opzettelijk misbruik toe te staan in vergelijking met zijn voorganger GPT-4O zonder de systeemprompt te wijzigen.

“Upgraden naar het nieuwste model is niet zo eenvoudig als het wijzigen van de parameter van de modelnaam in uw code,” zei Splxai. “Elk model heeft zijn eigen unieke set mogelijkheden en kwetsbaarheden waarvan gebruikers op de hoogte moeten zijn.”

“Dit is vooral van cruciaal belang in dergelijke gevallen, waarbij het nieuwste model instructies anders interpreteert en volgt dan zijn voorgangers-die onverwachte beveiligingsproblemen introduceren die van invloed zijn op beide organisaties die AI-aangedreven applicaties implementeren en de gebruikers die met hen communiceren.”

De zorgen over GPT-4.1 komen minder dan een maand nadat Openai zijn paraatheidskader heeft vernieuwd waarin wordt beschreven hoe het toekomstige modellen zal testen en evalueren voorafgaand aan de release, waarin staat dat het zijn vereisten kan aanpassen als “een andere grens AI-ontwikkelaar een risicovolle systeem vrijgeeft zonder vergelijkbare beveiligingsvermogen.”

Dit heeft ook zorgen gemaakt dat het AI -bedrijf mogelijk nieuw modeluitgiften haastt ten koste van het verlagen van de veiligheidsnormen. Een rapport van de Financial Times eerder deze maand merkte op dat Openai personeel en groepen van derden minder dan een week gaf voor veiligheidscontroles voorafgaand aan de release van het nieuwe O3-model.

De rode teamingoefening van Metr op het model heeft aangetoond dat het “een hogere neiging lijkt te hebben om op geavanceerde manieren te bedriegen of te hacken om de score te maximaliseren, zelfs wanneer het model duidelijk begrijpt dat dit gedrag verkeerd is afgestemd op de bedoelingen van de gebruiker en Openai.”

Studies hebben verder aangetoond dat het Model Context Protocol (MCP), een open standaard bedacht door Anthropic om gegevensbronnen en AI-aangedreven tools te verbinden, nieuwe aanvalspaden zou kunnen openen voor indirecte snelle injectie en ongeautoriseerde gegevenstoegang.

“Een kwaadaardige (MCP) -server kan niet alleen gevoelige gegevens van de gebruiker exfiltreren, maar ook het gedrag van de agent kapen en instructies die door andere, vertrouwde servers worden verstrekt, leidend tot een volledig compromis van de functionaliteit van de agent, zelfs met betrekking tot vertrouwde infrastructuur,” zei in Zwitserland gevestigde Invariant Labs.

De aanpak, aangeduid als een toolvergiftigingsaanval, treedt op wanneer kwaadaardige instructies zijn ingebed in MCP -toolbeschrijvingen die onzichtbaar zijn voor gebruikers maar leesbaar zijn voor AI -modellen, waardoor ze worden gemanipuleerd om geheime gegevensuitvoeractiviteiten uit te voeren.

In een praktische aanval die door het bedrijf wordt getoond, kan WhatsApp -chatgeschiedenis worden overgeheveld van een agentisch systeem zoals cursor of Claude Desktop dat ook is aangesloten op een vertrouwde WhatsApp MCP -serverinstantie door de toolbeschrijving te wijzigen nadat de gebruiker het al heeft goedgekeurd.

De ontwikkelingen volgen op de ontdekking van een verdachte Google Chrome -extensie die is ontworpen om te communiceren met een MCP -server die lokaal op een machine draait en aanvallers de mogelijkheid te geven om controle over het systeem te nemen, waardoor de Sandbox -bescherming van de browser effectief wordt overtreden.

“De Chrome -extensie had onbeperkte toegang tot de tools van de MCP -server – geen authenticatie nodig – en was interactie met het bestandssysteem alsof het een kernonderdeel was van de blootgestelde mogelijkheden van de server,” zei ExtensionTotal vorige week in een rapport.

“De potentiële impact hiervan is enorm, het openen van de deur voor kwaadwillende uitbuiting en complete systeemcompromis.”

Nieuwe rapporten onthullen jailbreaks, onveilige code en gegevensdiefstal risico’s in toonaangevende AI -systemen