Anthropic zegt dat Chinese AI-bedrijven 16 miljoen Claude-query’s hebben gebruikt om het model te kopiëren

Anthropic zei maandag dat het ‘campagnes op industriële schaal’ heeft geïdentificeerd die zijn opgezet door drie kunstmatige intelligentie (AI) bedrijven, DeepSeek, Moonshot AI en MiniMax, om op illegale wijze de capaciteiten van Claude te extraheren om hun eigen modellen te verbeteren.

De distillatieaanvallen genereerden meer dan 16 miljoen uitwisselingen met het grote taalmodel (LLM) via ongeveer 24.000 frauduleuze accounts, wat in strijd was met de servicevoorwaarden en regionale toegangsbeperkingen. Alle drie de bedrijven zijn gevestigd in China, waar het gebruik van zijn diensten verboden is vanwege ‘wettelijke, regelgevende en veiligheidsrisico’s’.

Distillatie verwijst naar een techniek waarbij een minder capabel model wordt getraind op de resultaten die worden gegenereerd door een sterker AI-systeem. Hoewel distillatie een legitieme manier is voor bedrijven om kleinere, goedkopere versies van hun eigen grensmodellen te produceren, is het illegaal voor concurrenten om deze te gebruiken om dergelijke capaciteiten van andere AI-bedrijven te verwerven tegen een fractie van de tijd en kosten die ze zouden kosten als ze deze zelf zouden ontwikkelen.

“Illegal gedistilleerde modellen missen de noodzakelijke waarborgen, waardoor aanzienlijke nationale veiligheidsrisico’s ontstaan”, aldus Anthropic. “Het is onwaarschijnlijk dat modellen die door middel van illegale distillatie zijn gebouwd, deze waarborgen behouden, wat betekent dat gevaarlijke capaciteiten zich kunnen verspreiden terwijl veel beschermingen volledig worden weggenomen.”

Buitenlandse AI-bedrijven die Amerikaanse modellen destilleren, kunnen deze onbeschermde capaciteiten bewapenen om kwaadwillige activiteiten, cybergerelateerd of anderszins, te faciliteren, en daarmee als basis dienen voor militaire, inlichtingen- en surveillancesystemen die autoritaire regeringen kunnen inzetten voor offensieve cyberoperaties, desinformatiecampagnes en massale surveillance.

De door AI parvenu beschreven campagnes omvatten het gebruik van frauduleuze accounts en commerciële proxydiensten om op grote schaal toegang te krijgen tot Claude en tegelijkertijd detectie te vermijden. Anthropic zei dat het elke campagne kon toewijzen aan een specifiek AI-lab op basis van metadata van verzoeken, correlatie van IP-adressen, metadata van verzoeken en infrastructuurindicatoren.

De details van de drie destillatie-aanvallen staan ​​hieronder:

  • DeepSeek, dat zich richtte op Claude’s redeneervermogen en op rubrieken gebaseerde beoordelingstaken, en zijn hulp zocht bij het genereren van censuurveilige alternatieven voor politiek gevoelige vragen zoals vragen over dissidenten, partijleiders of autoritarisme in meer dan 150.000 uitwisselingen.
  • Moonshot AI, dat zich richtte op Claude’s agentische redenering en gereedschapsgebruik, codeermogelijkheden, de ontwikkeling van computergebruiksagenten en computervisie op meer dan 3,4 miljoen uitwisselingen.
  • MiniMax, dat zich richtte op Claude’s mogelijkheden voor agentische codering en toolgebruik op meer dan 13 miljoen uitwisselingen.

“Het volume, de structuur en de focus van de aanwijzingen verschilden van normale gebruikspatronen, en weerspiegelden doelbewuste capaciteitsextractie in plaats van legitiem gebruik”, voegde Anthropic eraan toe. “Elke campagne was gericht op Claude’s meest gedifferentieerde capaciteiten: agentisch redeneren, gereedschapsgebruik en coderen.”

Het bedrijf wees er ook op dat de aanvallen afhankelijk waren van commerciële proxydiensten die op grote schaal toegang tot Claude en andere grensverleggende AI-modellen doorverkopen. Deze services worden mogelijk gemaakt door ‘hydra cluster’-architecturen die enorme netwerken van frauduleuze accounts bevatten om verkeer over hun API te verdelen.

De toegang wordt vervolgens gebruikt om grote hoeveelheden zorgvuldig vervaardigde aanwijzingen te genereren die zijn ontworpen om specifieke mogelijkheden uit het model te halen met als doel hun eigen modellen te trainen door de hoogwaardige antwoorden te verzamelen.

“De breedte van deze netwerken betekent dat er geen enkele faalpunten zijn”, aldus Anthropic. “Wanneer één account wordt verbannen, komt er een nieuwe voor in de plaats. In één geval beheerde een enkel proxynetwerk meer dan 20.000 frauduleuze accounts tegelijkertijd, waardoor distillatieverkeer werd gemengd met niet-gerelateerde klantverzoeken om detectie moeilijker te maken.”

Om de dreiging het hoofd te bieden, zei Anthropic dat het verschillende classificaties en gedragsvingerafdruksystemen heeft gebouwd om verdachte distillatieaanvalpatronen in API-verkeer te identificeren, de verificatie voor onderwijsaccounts, beveiligingsonderzoeksprogramma’s en startende organisaties heeft versterkt en verbeterde waarborgen heeft geïmplementeerd om de effectiviteit van modeloutputs voor illegale distillatie te verminderen.

De onthulling komt weken nadat Google Threat Intelligence Group (GTIG) bekendmaakte dat het via meer dan 100.000 aanwijzingen distillatie- en modelextractieaanvallen gericht op het redeneervermogen van Gemini had geïdentificeerd en verstoord.

“Modelextractie- en destillatieaanvallen vormen doorgaans geen risico voor de gemiddelde gebruiker, omdat ze de vertrouwelijkheid, beschikbaarheid of integriteit van AI-services niet bedreigen”, zei Google eerder deze maand. “In plaats daarvan concentreert het risico zich onder modelontwikkelaars en dienstverleners.”

Thijs Van der Does