VS beveelt Anthropic om de toegang van Fable 5 en Mythos 5 voor buitenlanders op te schorten

Anthropic zei vrijdag dat het zijn meest geavanceerde kunstmatige intelligentie (AI)-modellen “abrupt zal uitschakelen”. Claude-fabel 5 En Mythos 5voor alle gebruikers nadat de Amerikaanse regering haar had opgedragen de toegang tot de modellen voor buitenlanders op te schorten, zowel binnen als buiten de VS, onder verwijzing naar bezorgdheid over de nationale veiligheid.

Het AI-bedrijf zei dat het om 17:21 uur ET een bevel had ontvangen, waarin het werd opgedragen alle toegang tot de modellen door buitenlanders op te schorten. Het zei dat het geloofde dat er sprake was van een “misverstand” en dat het eraan werkt om de toegang tot de modellen zo snel mogelijk te herstellen. De toegang tot andere modellen zal niet worden beïnvloed door de exportcontrolerichtlijn.

“Wij hebben begrepen dat de regering gelooft dat zij zich bewust is geworden van een methode om Fable 5 te omzeilen of te ‘jailbreaken'”, aldus het bedrijf.

“We hebben een demonstratie bekeken van het gebruik van deze specifieke techniek om een klein aantal eerder bekende, kleine kwetsbaarheden te identificeren. Deze kwetsbaarheden lijken allemaal relatief eenvoudig en we hebben ontdekt dat andere openbaar beschikbare modellen deze ook kunnen ontdekken zonder dat er een bypass nodig is.”

De onverwachte stap komt dagen na de lancering van Claude Fable 5 en zijn tegenhanger Mythos 5, die hetzelfde onderliggende model gebruiken, maar waarbij de waarborgen op sommige gebieden zijn opgeheven, zoals cyberbeveiliging. Deze laatste, die wordt beschreven als de ‘sterkste cyberbeveiligingscapaciteiten van welk model ter wereld dan ook’, blijft toegankelijk voor een doorgelichte groep cyberverdedigers en exploitanten van kritieke infrastructuur.

Anthropic benadrukte dat het ‘sterke’ vangrails heeft geïmplementeerd om misbruik van zijn modellen voor cyberveiligheidsgerelateerde taken te voorkomen. Concreet wordt dit ondersteund door een reeks veiligheidsclassificatoren die worden gebruikt om potentieel misbruik, inclusief jailbreakpogingen, op te sporen en te voorkomen dat het hoofdmodel reageert.

De cybersecurity-classifier is ontworpen om schadelijke single-turn-verzoeken met betrekking tot het plannen van een cyberaanval, de ontwikkeling van exploits of het ontwijken van defensie te blokkeren. Het bedrijf merkt daarbij op dat modellen uit de Mythos-klasse bedreven zijn in het vinden en exploiteren van softwarekwetsbaarheden, waardoor aanvallers een strategisch voordeel krijgen.

Vorige week onthulde Anthropic dat zijn Mythos-klassemodel nieuw onthulde softwarekwetsbaarheden in uren, of in sommige gevallen zelfs minuten, kan omzetten in werkende exploits, in plaats van weken, waarbij N-dagen in N-uren worden omgezet. De bevindingen suggereren dat grensmodellen wellicht net zo goed zijn in het snel bewapenen van tekortkomingen die publiekelijk zijn onthuld.

“Een enkele operator kan nu in één middag een maand aan patches omzetten in werkende exploits – voor een paar duizend dollar en zonder gespecialiseerde expertise”, aldus het Red Team van Anthropic. “Dit betekent dat het typische patching-playbook dat softwareontwikkelaars tegenwoordig gebruiken – met maandelijkse release-frequenties, gefaseerde implementaties van meerdere weken en een vertraging tussen pre-release en stabiele kanalen – niet langer geldt.”

De beveiligingen van Fable 5 betekenen dat vragen over cyberbeveiligingsonderwerpen in plaats daarvan een antwoord zullen krijgen van Claude Opus 4.8, het volgende capabele model van het bedrijf.

In zijn laatste verklaring betoogt het bedrijf dat er tot nu toe geen universele jailbreak-methoden zijn ontwikkeld op basis van de nieuwste modellen, en voegt eraan toe dat externe en interne red-teaming-oefeningen hebben uitgewezen dat de waarborgen “substantieel effectiever zijn dan die van enig eerder ingezet model.”

Bovendien beweerde Anthropic dat “de perfecte jailbreak-resistentie” voor geen enkele modelaanbieder mogelijk is, aangezien elke beveiliging die door de industrie wordt gebruikt vatbaar is voor niet-universele jailbreaks die “effectief zijn in zeer beperkte contexten of extra inspanningen vereisen om aan elke nieuwe situatie te worden aangepast.”

“Tot nu toe heeft de overheid ons alleen mondeling bewijs gegeven van een mogelijke beperkte, niet-universele jailbreak, die in wezen bestaat uit het vragen aan het model om een specifieke codebase te lezen en eventuele softwarefouten op te lossen”, aldus het rapport.

“Wij hebben begrepen dat een mogelijke jailbreak met de overheid is gedeeld. We hebben een rapport beoordeeld waarvan wij denken dat het de basis is van de richtlijn van de overheid en hebben gevalideerd dat het daar getoonde niveau van capaciteit breed beschikbaar is via andere modellen (waaronder OpenAI’s GPT-5.5), en elke dag wordt gebruikt door de verdedigers die systemen veilig houden.”

Anthropic wees er ook op dat hoewel het allemaal aan de overheid is om onveilige AI-implementaties te blokkeren, het zei dat de ontdekking van een “nauw mogelijke jailbreak” niet de reden mag zijn om een commercieel model in herinnering te roepen dat op grote schaal wordt ingezet. Het wettelijke proces moet ‘transparant, eerlijk, duidelijk en gegrond op technische feiten’ zijn, voegde het eraan toe.

Eerder dit jaar bestempelde het Amerikaanse ministerie van Defensie Anthropic als een ‘toeleveringsketenrisico’, nadat de Claude-maker rode lijnen wilde trekken over het militaire gebruik van zijn technologie. Het bedrijf heeft twee rechtszaken aangespannen om de aanwijzing te blokkeren.