Meta lanceert het lamafirewall -framework om AI -jailbreaks, injecties en onzekere code te stoppen

Meta op dinsdag aangekondigd Lamafirewalleen open-source framework dat is ontworpen om kunstmatige intelligentie (AI) -systemen te beveiligen tegen opkomende cyberrisico’s zoals snelle injectie, jailbreaks en onzekere code, onder andere.

Het framework, zei het bedrijf, bevat drie vangrails, waaronder PromptGuard 2, Agent Alignment Checks en CodeShield.

PromptGuard 2 is ontworpen om directe jailbreak en snelle injectiepogingen in realtime te detecteren, terwijl Agent Apparment Checks in staat is om agent te inspecteren redeneren op mogelijke doelkaping en indirecte snelle injectiescenario’s.

CodeShield verwijst naar een online statische analyse -engine die probeert het genereren van onzekere of gevaarlijke code door AI -agenten te voorkomen.

“LLAMAFIREWALL is gebouwd om te dienen als een flexibel, realtime vangrail framework voor het beveiligen van LLM-aangedreven applicaties,” zei het bedrijf in een GitHub-beschrijving van het project.

“De architectuur is modulair, waardoor beveiligingsteams en ontwikkelaars gelaagde verdedigingen kunnen samenstellen die zich uitstrekken van ruwe inputafname tot definitieve uitvoeracties – over eenvoudige chatmodellen en complexe autonome agenten.”

Naast LamaFirewall heeft Meta bijgewerkte versies van Llamaguard en Cyberseceval beschikbaar gesteld om verschillende gemeenschappelijke soorten overtredende inhoud beter te detecteren en respectievelijk de defensieve cybersecurity -mogelijkheden van AI -systemen te meten.

Cyberseceval 4 bevat ook een nieuwe benchmark genaamd Autopatchbench, die is ontworpen om het vermogen van een LLM-agent voor een groot taalmodel (LLM) te evalueren om een ​​breed scala aan C/C ++ kwetsbaarheden te repareren die zijn geïdentificeerd door Fuzzing, een benadering die bekend staat als AI-aangedreven patching.

“AutopatchBench biedt een gestandaardiseerd evaluatiekader voor het beoordelen van de effectiviteit van AI-ondersteunde herstelhulpmiddelen voor kwetsbaarheid,” zei het bedrijf. “Deze benchmark is bedoeld om een ​​uitgebreid begrip van de mogelijkheden en beperkingen van verschillende AI-gedreven benaderingen voor het repareren van fuzzing-found bugs te vergemakkelijken.”

Ten slotte heeft Meta een nieuw programma gelanceerd dat LLAMA wordt nagesynchroniseerd voor verdedigers om partnerorganisaties en AI-ontwikkelaars te helpen bij het openen van open, vroege toegang en AI-oplossingen gesloten om specifieke beveiligingsuitdagingen aan te pakken, zoals het detecteren van door AI gegenereerde inhoud die wordt gebruikt in oplichting, fraude en phishing-aanvallen.

De aankondigingen komen wanneer WhatsApp een nieuwe technologie heeft bekeken die privé -verwerking wordt genaamd, waarmee gebruikers AI -functies kunnen benutten zonder hun privacy in gevaar te brengen door de verzoeken te ontladen naar een veilige, vertrouwelijke omgeving.

“We werken samen met de beveiligingsgemeenschap om onze architectuur te controleren en te verbeteren en zullen de private verwerking in de open lucht blijven bouwen en versterken, in samenwerking met onderzoekers, voordat we het in het product lanceren,” zei Meta.

Thijs Van der Does