Onderzoek vindt sporen van beelden van kindermisbruik in AI Image-datasets

Kunstmatige intelligentie maakt elke dag vooruitgang; we weten dat. Het vermogen om afbeeldingen te genereren is al lang onderwerp van discussie. Zelfs de laatste tijd worden dergelijke beelden gebruikt om informatie te manipuleren en verzonnen media te produceren. Om dit probleem enigszins aan te pakken, heeft Google de tool ‘Over deze afbeelding’ uitgebracht, die de bron en achtergrond van een afbeelding weergeeft, inclusief metagegevens indien toegankelijk. Deze tool werd voor het eerst aangekondigd tijdens de Google I/O Developer Conference 2023. Recente onthullingen hebben echter aangetoond dat de trainingsdataset voor het genereren van AI-afbeeldingen links bevatte naar beelden van kindermisbruik. Dit is niet alleen problematisch, maar ook zeer zorgwekkend, gezien de strikte wereldwijde regels voor de verspreiding van dergelijke inhoud. De federale wet in de Verenigde Staten maakt het bijvoorbeeld illegaal; Indien schuldig bevonden, kan men een levenslange gevangenisstraf en een boete van maximaal $ 250.000 riskeren.

Onderzoekers van Stanford vonden sporen van beelden van kindermisbruik in generatieve AI

De onderzoekers van Stanford University (Stanford Internet Observatory) onderzochten datasets voor het genereren van AI-beelden. Ze ontdekten dat de LAION-5B-dataset, gebruikt door Stability AI’s Stable Diffusion en Google’s Imagen-beeldgeneratoren, onder de loep is genomen omdat deze minimaal 1.679 illegale afbeeldingen bevat die afkomstig zijn van verschillende sociale media-posts en opmerkelijke websites voor volwassenen.

Vanaf september 2023 heeft een groep onderzoekers de LAION-dataset nauwkeurig onderzocht om vast te stellen of deze ongepaste afbeeldingen van kinderen bevatte. Ze gebruikten voornamelijk speciale codes, ‘image hashes’ genaamd, om de afbeeldingen te controleren. Vervolgens gebruikten ze tools zoals PhotoDNA om hun bevindingen te bevestigen, en experts van het Canadian Centre for Child Protection beoordeelden ook hun resultaten en waren het daarmee eens.

Veel mensen denken dat de LAION-dataset daadwerkelijke afbeeldingen bevat, maar dat klopt niet. In plaats daarvan dient het als een uitgebreide index of lijst die gebruikers doorverwijst naar waar ze afbeeldingen online kunnen vinden. Het slaat weblinks naar deze afbeeldingen op, samen met de bijbehorende tekstbeschrijvingen.

LAION reageert en bevestigt haar ‘nultolerantiebeleid’.

LAION, de non-profitorganisatie die de dataset beheert, liet Bloomberg weten dat zij een “nultolerantiebeleid” hanteren tegen schadelijke inhoud. En ze zouden de datasets tijdelijk offline halen. In reactie op hetzelfde rapport benadrukte Stability AI haar beleid om misbruik van haar platforms te voorkomen. Ze verduidelijkten dat, hoewel hun modellen waren getraind met behulp van delen van de LAION-5B-dataset. Ze hebben ze echter specifiek verfijnd en aangepast met het oog op de veiligheid.

Hoewel onderzoekers sporen van beelden van kindermisbruik in de datasets hebben benadrukt, legden ze uit dat dit niet noodzakelijkerwijs de resultaten van het model beïnvloedt. Ze waarschuwden echter dat er een potentieel risico blijft bestaan dat het model ongewenste informatie uit de afbeeldingen heeft gehaald.