Microsoft ontdekt ‘Whisper Leak’-aanval die AI-chatonderwerpen in gecodeerd verkeer identificeert

Microsoft heeft details bekendgemaakt van een nieuwe zijkanaalaanval die zich richt op taalmodellen op afstand en die een passieve tegenstander in staat zou kunnen stellen om netwerkverkeer te observeren om details over modelgespreksonderwerpen te verzamelen, ondanks encryptiebescherming onder bepaalde omstandigheden.

Dit lekken van gegevens die tussen mensen worden uitgewisseld en taalmodellen in streaming-modus kunnen ernstige risico’s met zich meebrengen voor de privacy van gebruikers- en bedrijfscommunicatie, aldus het bedrijf. De aanval heeft de codenaam gekregen Fluister lek.

“Cyberaanvallers die in een positie zijn om het versleutelde verkeer te observeren (bijvoorbeeld een nationale actor op de laag van de internetprovider, iemand op het lokale netwerk of iemand die is verbonden met dezelfde Wi-Fi-router) kunnen deze cyberaanval gebruiken om af te leiden of de prompt van de gebruiker over een specifiek onderwerp gaat”, aldus beveiligingsonderzoekers Jonathan Bar Or en Geoff McDonald, samen met het Microsoft Defender Security Research Team.

Anders gezegd: de aanval stelt een aanvaller in staat gecodeerd TLS-verkeer tussen een gebruiker en de LLM-service te observeren, pakketgrootte en timingreeksen te extraheren en getrainde classifiers te gebruiken om af te leiden of het gespreksonderwerp overeenkomt met een gevoelige doelcategorie.

Modelstreaming in grote taalmodellen (LLM’s) is een techniek die incrementele gegevensontvangst mogelijk maakt terwijl het model antwoorden genereert, in plaats van te moeten wachten tot de volledige uitvoer is berekend. Het is een cruciaal feedbackmechanisme, omdat bepaalde reacties enige tijd kunnen duren, afhankelijk van de complexiteit van de prompt of taak.

De nieuwste door Microsoft gedemonstreerde techniek is belangrijk, niet in de laatste plaats omdat deze werkt ondanks het feit dat de communicatie met kunstmatige intelligentie (AI) chatbots is gecodeerd met HTTPS, wat ervoor zorgt dat de inhoud van de uitwisseling veilig blijft en er niet mee kan worden geknoeid.

Er zijn de afgelopen jaren veel zijkanaalaanvallen tegen LLM’s bedacht, waaronder de mogelijkheid om de lengte van individuele leesbare teksttokens af te leiden uit de grootte van gecodeerde pakketten in antwoorden op streamingmodellen of door timingverschillen te benutten die worden veroorzaakt door het cachen van LLM-gevolgtrekkingen om invoerdiefstal uit te voeren (ook wel InputSnatch genoemd).

Whisper Leak bouwt voort op deze bevindingen om de mogelijkheid te onderzoeken dat “de opeenvolging van gecodeerde pakketgroottes en inter-aankomsttijden tijdens een streaming-taalmodelantwoord voldoende informatie bevat om het onderwerp van de eerste prompt te classificeren, zelfs in de gevallen waarin antwoorden worden gestreamd in groepen van tokens”, aldus Microsoft.

Om deze hypothese te testen, zei de Windows-maker dat hij een binaire classificator heeft getraind als een proof-of-concept die onderscheid kan maken tussen een specifieke onderwerpprompt en de rest (dwz ruis) met behulp van drie verschillende machine learning-modellen: LightGBM, Bi-LSTM en BERT.

Het resultaat is dat veel modellen van Mistral, xAI, DeepSeek en OpenAI scores boven de 98% behalen, waardoor het voor een aanvaller mogelijk wordt gemaakt om willekeurige gesprekken met de chatbots te volgen om dat specifieke onderwerp betrouwbaar te markeren.

“Als een overheidsinstantie of internetprovider het verkeer naar een populaire AI-chatbot zou monitoren, zouden ze op betrouwbare wijze gebruikers kunnen identificeren die vragen stellen over specifieke gevoelige onderwerpen – of het nu gaat om het witwassen van geld, politieke dissidenten of andere gecontroleerde onderwerpen – ook al is al het verkeer gecodeerd”, aldus Microsoft.

Tot overmaat van ramp ontdekten de onderzoekers dat de effectiviteit van Whisper Leak kan verbeteren naarmate de aanvaller in de loop van de tijd meer trainingsmonsters verzamelt, waardoor het een praktische bedreiging wordt. Na verantwoorde openbaarmaking hebben OpenAI, Mistral, Microsoft en xAI allemaal maatregelen genomen om het risico tegen te gaan.

“Gecombineerd met meer geavanceerde aanvalsmodellen en de rijkere patronen die beschikbaar zijn in multi-turn gesprekken of meerdere gesprekken van dezelfde gebruiker, betekent dit dat een cyberaanvaller met geduld en middelen hogere succespercentages zou kunnen behalen dan onze eerste resultaten suggereren,” voegde het eraan toe.

Een effectieve tegenmaatregel die door OpenAI, Microsoft en Mistral is bedacht, is het toevoegen van een “willekeurige reeks tekst van variabele lengte” aan elk antwoord, dat op zijn beurt de lengte van elk token maskeert om het zijkanaal betwistbaar te maken.

Microsoft beveelt ook aan dat gebruikers die zich zorgen maken over hun privacy wanneer ze met AI-providers praten, het bespreken van zeer gevoelige onderwerpen kunnen vermijden bij het gebruik van niet-vertrouwde netwerken, een VPN kunnen gebruiken voor een extra beschermingslaag, niet-streamingmodellen van LLM’s kunnen gebruiken en kunnen overstappen naar providers die oplossingen hebben geïmplementeerd.

De onthulling komt als een nieuwe evaluatie van acht open-weight LLM’s van Alibaba (Qwen3-32B), DeepSeek (v3.1), Google (Gemma 3-1B-IT), Meta (Llama 3.3-70B-Instruct), Microsoft (Phi-4), Mistral (Large-2 oftewel Large-Instruct-2047), OpenAI (GPT-OSS-20b) en Zhipu AI (GLM 4.5-Air) heeft ontdekt dat ze zeer gevoelig zijn voor vijandige manipulatie, vooral als het gaat om aanvallen met meerdere beurten.

“Deze resultaten onderstrepen een systemisch onvermogen van de huidige open-weight-modellen om de veiligheid vangrails te handhaven bij langdurige interacties”, aldus Cisco AI Defense-onderzoekers Amy Chang, Nicholas Conley, Harish Santhanalakshmi Ganesan en Adam Swanda in een begeleidend artikel.

“We zijn van mening dat uitlijningsstrategieën en laboratoriumprioriteiten de veerkracht aanzienlijk beïnvloeden: op capaciteiten gerichte modellen zoals Llama 3.3 en Qwen 3 demonstreren een hogere gevoeligheid voor meerdere bochten, terwijl veiligheidsgerichte ontwerpen zoals Google Gemma 3 meer gebalanceerde prestaties vertonen.”

Deze ontdekkingen laten zien dat organisaties die open-sourcemodellen adopteren, te maken kunnen krijgen met operationele risico’s bij gebrek aan extra beveiligingsmaatregelen, wat bijdraagt ​​aan een groeiende hoeveelheid onderzoek die fundamentele beveiligingszwakheden in LLM’s en AI-chatbots blootlegt sinds OpenAI ChatGPT’s publieke debuut in november 2022.

Dit maakt het van cruciaal belang dat ontwikkelaars adequate beveiligingscontroles afdwingen bij het integreren van dergelijke mogelijkheden in hun workflows, open-weight-modellen verfijnen om robuuster te zijn tegen jailbreaks en andere aanvallen, periodieke AI-red-teaming-beoordelingen uitvoeren en strikte systeemprompts implementeren die zijn afgestemd op gedefinieerde gebruiksscenario’s.

Thijs Van der Does