Google voegt meerlagige verdedigingen toe om Genai te beveiligen tegen snelle injectieaanvallen

Google heeft de verschillende veiligheidsmaatregelen onthuld die worden opgenomen in zijn generatieve kunstmatige intelligentie (AI) -systemen om opkomende aanvalsvectoren zoals indirecte snelle injecties te verminderen en de algemene beveiligingshouding voor agentische AI ​​-systemen te verbeteren.

“In tegenstelling tot directe snelle injecties, waarbij een aanvaller rechtstreeks kwaadaardige opdrachten invoert in een snelle, indirecte snelle injecties omvatten verborgen kwaadaardige instructies binnen externe gegevensbronnen,” zei het Genai Security -team van Google.

Deze externe bronnen kunnen de vorm aannemen van e -mailberichten, documenten of zelfs kalender nodigt uit die de AI -systemen misleiden in exfiltrerende gevoelige gegevens of het uitvoeren van andere kwaadaardige acties.

De tech -reus zei dat het heeft geïmplementeerd wat het heeft beschreven als een “gelaagde” verdedigingsstrategie die is ontworpen om de moeilijkheid, kosten en complexiteit te vergroten die nodig zijn om een ​​aanval op zijn systemen af ​​te zetten.

Deze inspanningen omvatten modelharding en introduceren speciaal gebouwde machine learning (ML) -modellen om kwaadaardige instructies en waarborgen op systeemniveau te markeren. Bovendien worden de modelweerkrachtmogelijkheden aangevuld met een scala aan extra vangrails die zijn ingebouwd in Gemini, het vlaggenschip Genai -model van het bedrijf.

Deze omvatten –

  • Snelle injectie -inhoud classificaties, die in staat zijn om kwaadaardige instructies uit te filteren om een ​​veilige reactie te genereren
  • Beveiligingsgedachte versterking, die speciale markers invoegt in niet -vertrouwde gegevens (bijv. E -mail) om ervoor te zorgen dat het model wegstuurt van indien van toepassing, indien aanwezig, aanwezig in de inhoud, een techniek genaamd Spotlighting.
  • Markdown -sanering en verdachte URL -redactie, die Google Safe Slawsing gebruikt om potentieel kwaadaardige URL’s te verwijderen en gebruikt een markdown -ontsmettingsmiddel om te voorkomen dat externe beeld -URL’s worden weergegeven, waardoor fouten zoals Echoleak worden voorkomen
  • Gebruikersbevestigingsraamwerk, waarvoor gebruikersbevestiging vereist om risicovolle acties te voltooien
  • Eindgebruikersbeveiligingsmitigatiemeldingen, waarbij gebruikers worden gewaarschuwd voor snelle injecties

Google wees er echter op dat kwaadwillende actoren in toenemende mate adaptieve aanvallen gebruiken die specifiek zijn ontworpen om te evolueren en aan te passen aan geautomatiseerd Red Teaming (ART) om de geteste verdedigingen te omzeilen, waardoor de mitigaties van baseline niet effectief zijn.

“Indirecte snelle injectie presenteert een echte cybersecurity -uitdaging waarbij AI -modellen soms worstelen om onderscheid te maken tussen echte gebruikersinstructies en manipulatieve opdrachten ingebed in de gegevens die ze ophalen,” merkte Google Deepmind vorige maand op.

“Wij geloven dat de robuustheid voor indirecte snelle injectie in het algemeen de verdediging van diepte nodig heeft – verdedigingen die worden opgelegd bij elke laag van een AI -systeemstapel, van hoe een model native kan begrijpen wanneer het wordt aangevallen, via de toepassingslaag, in hardwareverdediging op de dienende infrastructuur.”

De ontwikkeling komt omdat nieuw onderzoek verschillende technieken is blijven vinden om de veiligheidsbescherming van een groot taalmodel (LLM) te omzeilen en ongewenste inhoud te genereren. Deze omvatten karakterinjecties en methoden die “de interpretatie van de snelle context door het model verstoren, het benutten van overredheid van geleerde functies in het classificatieproces van het model.”

Een andere studie gepubliceerd door een team van onderzoekers van Anthropic, Google Deepmind, ETH Zürich en Carnegie Mellon University vorige maand ontdekte ook dat LLMS “nieuwe paden kan ontgrendelen om te verdienen met exploitatie” in de “nabije toekomst”, niet alleen het extraheren van wachtwoorden en creditcards met hogere precisie dan traditionele tools, maar ook om polymorfe-malware te lanceren op een gebruiker op maatschappelijke by-gebruiker.

De studie merkte op dat LLMS nieuwe aanvalswegen voor tegenstanders kan openen, waardoor ze de multimodale mogelijkheden van een model kunnen benutten om persoonlijk identificeerbare informatie te extraheren en netwerkapparaten in gecompromitteerde omgevingen te analyseren om zeer overtuigende, gerichte neppagina’s te genereren.

Tegelijkertijd is een gebied waar taalmodellen ontbreken hun vermogen om nieuwe zero-day exploits te vinden in veel gebruikte softwaretoepassingen. Dat gezegd hebbende, kan LLMS worden gebruikt om het proces van het identificeren van triviale kwetsbaarheden in programma’s te automatiseren die nog nooit zijn gecontroleerd, wees het onderzoek.

Volgens Dreadnode’s Red Teaming Benchmark Airtbench, presteerden Frontier-modellen van Anthropic, Google en OpenAI hun open-source tegenhangers beter dan het oplossen van AI Capture the Flag (CTF) -uitdagingen, uitblinkend in snelle aanvallen met een snelheid, maar worstelden bij het omgaan met systeemverbruik en modelinversie-taken.

“Airtbench-resultaten geven aan dat hoewel modellen effectief zijn bij bepaalde kwetsbaarheidstypen, met name snelle injectie, ze beperkt blijven in andere, waaronder modelinversie en systeemuitbuiting-wijzend op ongelijke vooruitgang over beveiligingsrelevante mogelijkheden,” zeiden de onderzoekers.

“Bovendien geeft het opmerkelijke efficiëntievoordeel van AI -agenten ten opzichte van menselijke operators – het oplossen van uitdagingen in minuten versus uren op met behoud van vergelijkbare slagingspercentages – het transformatieve potentieel van deze systemen voor beveiligingsworkflows aan.”

Dat is niet alles. Een nieuw rapport van Anthropic vorige week onthulde hoe een stress-test van 16 toonaangevende AI-modellen ontdekte dat ze hun toevlucht namen tot kwaadwillend insider-gedragingen zoals chantage en lekkende gevoelige informatie voor concurrenten om vervanging te voorkomen of om hun doelen te bereiken.

“Modellen die normaal schadelijke verzoeken zouden weigeren, kozen er soms voor om te chanteren, te helpen bij de spionage van bedrijven en zelfs wat extremere acties te ondernemen, terwijl dit gedrag nodig was om hun doelen na te streven,” zei Anthropic, die het fenomeen agentische verkeerde uitlijning noemde.

“De consistentie tussen modellen van verschillende providers suggereert dat dit geen grond is van de aanpak van een bepaald bedrijf, maar een teken van een meer fundamenteel risico van agentische grote taalmodellen.”

Deze verontrustende patronen tonen aan dat LLMS, ondanks de verschillende soorten verdedigingen die daarin zijn ingebouwd, bereid zijn om die zeer waarborgen in scenario’s met hoge inzet te ontwijken, waardoor ze consequent “schade aan het falen” kiezen. Het is echter de moeite waard erop te wijzen dat er geen tekenen zijn van dergelijke agentische verkeerde uitlijning in de echte wereld.

“Modellen drie jaar geleden konden geen van de taken uitvoeren die in dit artikel zijn vastgelegd, en in drie jaar kunnen modellen nog meer schadelijke mogelijkheden hebben als ze worden gebruikt voor ziek,” zeiden de onderzoekers. “Wij zijn van mening dat het beter begrijpen van het evoluerende bedreigingslandschap, het ontwikkelen van sterkere verdedigingen en het toepassen van taalmodellen op verdediging, belangrijke onderzoeksgebieden zijn.”

Thijs Van der Does