NIST waarschuwt voor veiligheids- en privacyrisico’s als gevolg van snelle implementatie van AI-systemen

Het Amerikaanse National Institute of Standards and Technology (NIST) vestigt de aandacht op de uitdagingen op het gebied van privacy en veiligheid die ontstaan ​​als gevolg van de toegenomen inzet van kunstmatige intelligentie (AI)-systemen in de afgelopen jaren.

“Deze beveiligings- en privacy-uitdagingen omvatten het potentieel voor vijandige manipulatie van trainingsgegevens, vijandige exploitatie van kwetsbaarheden in modellen om de prestaties van het AI-systeem negatief te beïnvloeden, en zelfs kwaadwillige manipulaties, aanpassingen of louter interactie met modellen om gevoelige informatie te exfiltreren over mensen die vertegenwoordigd zijn in de gegevens, over het model zelf, of bedrijfseigen bedrijfsgegevens”, aldus NIST.

Nu AI-systemen in snel tempo worden geïntegreerd in online diensten, deels gedreven door de opkomst van generatieve AI-systemen zoals OpenAI ChatGPT en Google Bard, worden de modellen die deze technologieën aandrijven geconfronteerd met een aantal bedreigingen in verschillende stadia van de machine learning-operaties.

Deze omvatten beschadigde trainingsgegevens, beveiligingsfouten in de softwarecomponenten, vergiftiging van datamodellen, zwakke punten in de toeleveringsketen en inbreuken op de privacy die ontstaan ​​als gevolg van snelle injectie-aanvallen.

“Voor het grootste deel hebben softwareontwikkelaars meer mensen nodig om hun product te gebruiken, zodat het met blootstelling beter kan worden”, zei NIST-computerwetenschapper Apostol Vassilev. “Maar er is geen garantie dat de bekendheid goed zal zijn. Een chatbot kan slechte of giftige informatie uitspuwen wanneer daarom wordt gevraagd met zorgvuldig ontworpen taal.”

Veiligheid en privacy

De aanvallen, die aanzienlijke gevolgen kunnen hebben voor de beschikbaarheid, integriteit en privacy, worden grofweg als volgt geclassificeerd:

  • Ontwijkingsaanvallen, die tot doel hebben vijandige output te genereren nadat een model is geïmplementeerd
  • Vergiftigingsaanvallen, die zich richten op de trainingsfase van het algoritme door beschadigde gegevens te introduceren
  • Privacyaanvallen, die tot doel hebben gevoelige informatie te verzamelen over het systeem of de gegevens waarop het is getraind door vragen te stellen die bestaande vangrails omzeilen
  • Misbruikaanvallen, die tot doel hebben legitieme informatiebronnen in gevaar te brengen, zoals een webpagina met onjuiste stukjes informatie, om het beoogde gebruik van het systeem te herbestemmen

Dergelijke aanvallen kunnen volgens NIST worden uitgevoerd door dreigingsactoren met volledige kennis (white-box), minimale kennis (black-box), of die een gedeeltelijk begrip hebben van sommige aspecten van het AI-systeem (grijze box).

Het agentschap merkte verder op het gebrek aan robuuste beperkende maatregelen om deze risico’s tegen te gaan, en drong er bij de bredere technologiegemeenschap op aan “met betere verdedigingen te komen”.

De ontwikkeling komt ruim een ​​maand nadat Groot-Brittannië, de VS en internationale partners uit zestien andere landen richtlijnen hebben vrijgegeven voor de ontwikkeling van veilige kunstmatige intelligentie (AI)-systemen.

“Ondanks de aanzienlijke vooruitgang die AI en machine learning hebben geboekt, zijn deze technologieën kwetsbaar voor aanvallen die spectaculaire mislukkingen kunnen veroorzaken met ernstige gevolgen”, aldus Vassilev. “Er zijn theoretische problemen met het beveiligen van AI-algoritmen die eenvoudigweg nog niet zijn opgelost. Als iemand anders zegt, verkopen ze slangenolie.”

Thijs Van der Does