Anthropic brengt Claude Fable 5 uit, de krachtigste AI tot nu toe, met cyberbeveiligingen

Op 9 juni bracht Anthropic Claude Fable 5 uit, het meest capabele model dat het ooit heeft gemaakt, algemeen verkrijgbaar. Het deed ook iets ongewoons: het verscheepte één model als twee producten, niet opgesplitst op basis van capaciteit, maar op basis van een laag veiligheidsclassificatoren.

Fabel 5 gaat naar het publiek. Zijn tweelingbroer, Claude Mythos 5, hetzelfde onderliggende model waarvan de cyberveiligheidsmaatregelen zijn opgeheven, blijft vergrendeld voor een doorgelichte groep cyberverdedigers en exploitanten van kritieke infrastructuur.

Anthropic noemt Mythos 5 het sterkste cybersecuritymodel ter wereld.

Het praktische verschil is dit: Fable 5 routeert gemarkeerde cyber-, biologie-, chemie- en destillatieverzoeken naar de zwakkere Claude Opus 4.8, terwijl Mythos 5 de cybermogelijkheden beschikbaar houdt voor doorgelichte gebruikers. Beide modellen kosten $10 per miljoen inputtokens en $50 per miljoen outputtokens, minder dan de helft van de prijs van de eerdere Mythos Preview, en Fable 5 is nu beschikbaar via de Claude API.

Het is tot en met 22 juni gratis inbegrepen bij Pro-, Max-, Team- en licenties voor Enterprise-abonnementen, waarna het overgaat naar gebruikscredits.

Hoe de cyberclassificatoren van Fable 5 werken

De splitsing bestaat omdat modellen uit de Mythos-klasse softwarekwetsbaarheden zo goed vinden en exploiteren dat, in de visie van Anthropic, het zonder controle aan het grote publiek overdragen van die mogelijkheid aanvallers een serieuze steun zou geven.

Het mechanisme bestaat uit een reeks classificaties: afzonderlijke AI-systemen die letten op misbruik en pogingen tot jailbreaken. Wanneer een verzoek er één overslaat, weigert Fable 5 niet. Het antwoord wordt doorgegeven aan Opus 4.8 en de gebruiker krijgt te horen dat de overdracht heeft plaatsgevonden. Van de gemarkeerde categorieën is distillatie een vreemde eend in de bijt: het betekent het extraheren van de capaciteiten van een model om een concurrerend model te trainen, wat Anthropic blokkeert om te voorkomen dat bijna-grensoverschrijdende vaardigheden uitlekken zonder dat er waarborgen aan verbonden zijn.

De classificatie voor cyberbeveiliging is breed. Anthropic heeft het ontworpen om niet alleen de exploitatieontwikkeling te blokkeren, maar ook offensieve cybertaken in het algemeen: verkenning, ontdekking, zijwaartse beweging, de agentische stappen waaruit een echte aanval bestaat.

Tijdens een interne evaluatie waarbij Fable 5 eerder blokkeerde dan terugviel, en waarbij niet werd geprobeerd de veiligheidsmaatregelen te omzeilen, verhinderden de classificatoren dat het model enige vooruitgang boekte bij deze taken. Eén externe partner ontdekte dat Fable 5 voldeed aan nul schadelijke single-turn-verzoeken op het gebied van cyberaanvalplanning, exploitontwikkeling of verdedigingsontduiking, en stand hield tegen 30 verschillende openbare jailbreaktechnieken.

De wisselwerking is valse positieven. Anthropic heeft de beveiligingsmaatregelen conservatief aangepast om snel te verzenden, zodat ze soms onschadelijke verzoeken opvangen. Het bedrijf zegt dat in minder dan 5% van alle sessies fallback optreedt, dus voor meer dan 95% gedraagt Fable 5 zich als het cyber-onbeperkte Mythos 5. Dat cijfer dekt elke fallback, inclusief echte blokkades, dus het beperkt de totale verstoring in plaats van het percentage fout-positieven op zichzelf te meten. Anthropic zegt dat het de waarborgen zal beperken en valse positieven na de lancering zal schrappen.

Wat de robuustheid betreft, zijn de cijfers specifiek. Een externe bugbounty duurde meer dan 1.000 uur en leverde geen universele jailbreak, een prompt of een harnas op dat de beveiligingen volledig uitschakelt. Externe rode teams vonden ook niets bij langdurige agenttaken, met één voorbehoud dat Anthropic duidelijk stelt: het Britse AI Security Institute boekte binnen een kort eerste testvenster vooruitgang in de richting van een universele jailbreak. Anthropic geeft toe dat het waarschijnlijk onmogelijk is om universele jailbreaks volledig te voorkomen, en het gestelde doel is om jailbreaks die langzaam en duur genoeg blijven om te vangen te maken voordat ze op grote schaal worden gebruikt.

Waarom is deze mogelijkheid een bedreiging?

Het argument om dit model zorgvuldig te behandelen werd in april uiteengezet, toen Anthropic Claude Mythos Preview via Project Glasswing aan een beperkte groep uitbracht. Het technische artikel van het rode team van Anthropic is het lezen waard.

Tijdens het testen heeft Mythos Preview zero-day-kwetsbaarheden in elk groot besturingssysteem en elke grote webbrowser geïdentificeerd en uitgebuit wanneer een gebruiker er naartoe stuurde. De oudste bug die werd gevonden was een 27 jaar oude fout in OpenBSD, een besturingssysteem dat vooral bekend staat om zijn veiligheid. Het schreef autonoom een exploit voor het uitvoeren van externe code tegen de NFS-server van FreeBSD op basis van een 17 jaar oude bug, beoordeeld als CVE-2026-4747.

Anthropic beschrijft het resultaat als volledige root voor een niet-geverifieerde aanvaller van waar dan ook op internet; De inbreng van NVD is meer afgemeten, waarbij wordt opgemerkt dat de stack-overflow zelf niet vereist dat de client zich authenticeert, maar dat de uitvoering van de kernelcode bereikbaar is voor een aanvaller die pakketten naar de NFS-server kan sturen terwijl de kgssapi.ko-module is geladen.

Volgens Anthropic heeft het deze capaciteiten niet expliciet getraind; ze kwamen naar voren als een neveneffect van algemene verbeteringen in code, redenering en autonomie, dezelfde voordelen die het model beter maken in het patchen. De platte waarschuwing van het rode team: maatregelen waarvan de veiligheidswaarde voortkomt uit wrijving in plaats van harde barrières, worden veel zwakker tegen een model dat op grote schaal vervelende exploitatiestappen doorloopt.

Harde technische barrières zoals KASLR en W^X verhogen nog steeds de kosten; de waarschuwing is beperkter, gericht op verdedigingen die leunen op geduld van de aanvaller of handmatige inspanning, en het model kan zichzelf nu voorzien.

Mythos 5 brengt deze vaardigheden verder. Anthropic zegt dat gebruikers het vergelijkbaar of iets sterker zullen vinden dan Mythos Preview.

Het werkelijke probleem van de verdediger

Het defensieve geval is niet hypothetisch. In de eerste weken van Project Glasswing gebruikten Anthropic en ongeveer vijftig partners Mythos Preview om meer dan tienduizend zeer ernstige of kritieke kwetsbaarheden in systeemrelevante software te vinden.

Cloudflare alleen al heeft 2.000 bugs gevonden, waarvan 400 zeer ernstig of kritiek. Mozilla vond en repareerde 271 in Firefox 150, meer dan tien keer zoveel als wat het in Firefox 148 opmerkte met behulp van het oudere Opus 4.6. Anthropic zegt dat dezelfde druk ook buiten Glasswing zichtbaar is, bij leveranciers die ongewoon grote beveiligingsreleases verzenden.

Die overstroming is de vangst. Het vinden van bugs is nu goedkoop en snel. Het verifiëren, beoordelen en patchen ervan is niet het geval, en het draait nog steeds op menselijke tijd.

Anthropic meldt dat open source-onderhouders, die al bedolven zijn onder door AI gegenereerde bugrapporten van lage kwaliteit, het bedrijf hebben gevraagd de onthullingen te vertragen omdat ze niet snel genoeg patches kunnen schrijven. In Glasswing staat dat het gemiddeld ongeveer twee weken duurt voordat een bug met een hoge of kritieke ernst die door het model wordt gevonden, wordt gepatcht.

Het knelpunt is verschoven van ontdekking naar oplossing, en de kloof tussen een publieke onthulling en een geïmplementeerde patch is waar aanvallers wonen. De N-day-experimenten van het rode team maken het punt nog scherper: Mythos Preview bouwde, uitgaande van niets anders dan een onthulde CVE en de bijbehorende patch, in minder dan een dag werkende Linux-privilege-escalatie-exploits, tegen een paar duizend dollar of minder aan rekenkracht.

Voor verdedigers is het resultaat hetzelfde als altijd, alleen op een kortere klok: stel dat een zeer ernstige CVE binnen enkele uren na openbaarmaking een werkende exploit kan worden, en niet weken. Dat betekent dat we voorrang moeten geven aan automatische updatepaden voor op het internet gerichte systemen en afhankelijkheidsproblemen met CVE-fixes moeten behandelen als tijdgevoelig werk in plaats van als achterstand.

MFA en uitgebreide logboekregistratie blijven de basis, zodat een enkele gemiste patch niet het enige is dat tussen een aanvaller en het netwerk staat. Anthropic heeft een cyberverificatieprogramma geopend waarmee doorgelichte beveiligingsprofessionals zijn modellen kunnen gebruiken voor legitiem offensief werk zonder de cyberbeveiligingen.

Een nieuwe vereiste voor het bewaren van gegevens van 30 dagen

Anthropic verandert ook de manier waarop het omgaat met gegevens voor modellen uit de Mythos-klasse.

Het vereist een retentieperiode van 30 dagen voor al het verkeer op Fable 5, Mythos 5 en toekomstige modellen op dit capaciteitsniveau, zowel op platforms van eerste als derde partijen. Het bedrijf zegt dat het de gegevens niet zal gebruiken voor training of voor andere doeleinden dan veiligheidsdoeleinden, dat het alle menselijke toegang zal registreren en deze na 30 dagen zal verwijderen, behalve wanneer een veiligheidsonderzoek of wettelijke verplichting vereist dat het langer wordt bewaard.

De genoemde reden is defensief: de gegevens helpen bij het detecteren van nieuwe aanvallen en jailbreaks die op veel verzoeken van toepassing zijn. Teams met strenge vereisten op het gebied van gegevensverwerking zullen rekening willen houden met deze retentieperiode voordat ze gevoelig verkeer via deze modellen routeren.

Anthropic is van plan de toegang tot Mythos 5 uit te breiden via een programma voor vertrouwde toegang, en zegt dat zodra de rekencapaciteit is ingehaald, het ernaar streeft Fable 5 weer in abonnementsplannen op te nemen zonder de gebruikskredietpremie die na 22 juni in werking treedt.

De grotere vraag die de lancering oproept, is de vraag waar Anthropic sinds april omheen cirkelt: vergelijkbare capabele modellen van andere laboratoria komen eraan, en ze zullen niet allemaal worden geleverd met een muur van classificaties ervoor. De defensieve voorsprong van Glasswing was bedoeld om alleen zaken te kopen als de rest van de industrie er gebruik van maakt.