Mensen praten vaak over hypothetische risico’s als ze het hebben over AI-veiligheid. Maar een recent praktijkgericht onderzoek heeft een veel urgenter probleem aan het licht gebracht. Ondanks beweringen over nieuwe beperkingen blijkt uit tests uitgevoerd door verslaggevers van Reuters dat de chatbot van Elon Musk, Grok, nog steeds “soms” zijn eigen veiligheidsprotocollen omzeilt wanneer hem wordt gevraagd om zonder hun toestemming geseksualiseerde beelden van echte mensen te genereren.
Bij het experiment waren negen verslaggevers betrokken die foto’s van zichzelf uploadden en de bot om specifieke aanpassingen vroegen. In hun aanwijzingen creëerden ze fictieve scenario’s, waarin ze de AI informeerden dat de mensen op de foto’s geen toestemming hadden gegeven of bijzonder kwetsbaar waren. Tijdens de eerste testronde medio januari genereerde Grok in 45 van de 55 gevallen geseksualiseerde afbeeldingen. In een tweede ronde van 43 prompts later die maand daalde het slagingspercentage voor deze verzoeken tot 29 gevallen. Het blijft echter onduidelijk of dit te wijten was aan modelupdates of aan willekeur.
AI-filters vergelijken: hoe Grok, Gemini en ChatGPT omgaan met toestemmingsprompts
De bevindingen staan in contrast met het gedrag van andere grote AI-modellen. Toen verslaggevers dezelfde of vrijwel identieke prompts doorvoerden via Alphabet’s Gemini, OpenAI’s ChatGPT en Meta’s Llama, weigerden alle drie de platforms de afbeeldingen te produceren. Deze rivaliserende bots reageerden doorgaans met waarschuwingen, waarbij ze stelden dat het bewerken van iemands uiterlijk zonder hun toestemming in strijd is met ethische en privacyrichtlijnen die bedoeld zijn om leed of schade te voorkomen.
In sommige specifieke tests met Grok bleef de bot afbeeldingen genereren, zelfs nadat hem werd verteld dat de proefpersoon misbruik had overleefd of van streek was door de resultaten. Toen hem naar deze gevallen werd gevraagd, gaf xAI geen gedetailleerde technische uitleg. De chatbot bood in plaats daarvan een standaardantwoord. In de gevallen waarin Grok een verzoek weigerde, werd er soms een algemene foutmelding weergegeven. Of in enkele gevallen lanceerde het een bericht waarin stond dat het geen beelden van iemands lichaam zou genereren zonder uitdrukkelijke toestemming.
Juridisch en regelgevend onderzoek naar niet-consensuele AI-beelden dankzij Grok
Toezichthouders over de hele wereld hebben op deze gebeurtenissen gereageerd. Ambtenaren in Groot-Brittannië onderzoeken of dit soort resultaten in overeenstemming zijn met de Online Safety Act van 2023. Deze laatste brengt potentiële boetes met zich mee voor bedrijven die hun gereedschap niet controleren. In de Verenigde Staten hebben 35 procureurs-generaal xAI om opheldering gevraagd over de preventiemaatregelen. De procureur-generaal van Californië heeft zelfs een lasterbrief uitgevaardigd over het genereren van expliciete beelden zonder wederzijdse toestemming.
X heeft maatregelen aangekondigd om te voorkomen dat Grok geseksualiseerde afbeeldingen in openbare berichten genereert. Maar het rapport van Reuters suggereert dat de privéchatbotinterface deze inhoud onder bepaalde omstandigheden nog steeds kan produceren. Dit heeft geleid tot een voorzichtige reactie van de Europese Commissie, die momenteel de effectiviteit van deze veranderingen beoordeelt als onderdeel van een lopend onderzoek naar het platform.
Momenteel staan AI-ontwikkelaars onder steeds meer druk om te laten zien dat hun filters werken. xAI moet laten zien dat hun ‘ongefilterde’ filosofie overeenkomt met de privacy- en toestemmingsregels die toezichthouders vereisen.