Jouw Bluesky-posts zouden op dit moment AI-modellen kunnen trainen

De populariteit van Bluesky is de afgelopen weken enorm gestegen. Te midden van een ‘uittocht’ van X/Twitter-gebruikers vonden miljoenen mensen Bluesky het ideale alternatief. Het platform is ontworpen als concurrent van Twitter en lijkt qua kernfunctionaliteit behoorlijk op elkaar. Het lijkt er echter op dat de voorwaarden van BlueSky met betrekking tot AI en postprivacy niet zo goed zijn als velen hadden verwacht.

Een van de veranderingen in X die een gebruikersmigratiecampagne teweegbrachten, heeft te maken met kunstmatige intelligentie. Dankzij de nieuwe gebruiksvoorwaarden kan het platform van Elon Musk zijn op AI gebaseerde ontwikkelingen trainen met gebruikersposts. Hoewel velen dit misschien niets kunnen schelen, zijn er anderen – zoals kunstenaars – die het nieuwe beleid met bezorgdheid bezien.

Dat gezegd hebbende, lijkt het erop dat uw berichten op Bluesky niet zo veilig zijn om te worden gebruikt voor AI-training. Het is opmerkelijk dat het sociale platform heeft toegezegd dit niet te doen. Deze verklaring stelde de mensen gerust die X juist om die reden verlieten. Maar hoewel Bluesky AI niet op uw inhoud zal trainen, weerhoudt niets derden ervan dit te doen.

De oorsprong van de controverse: miljoenen Bluesky-posts beschikbaar voor AI-training

Vorige week deelde Daniel van Strien, een machine learning-bibliothecaris bij Hugging Face, een dataset bestaande uit een miljoen Bluesky-posts, wat tot controverse leidde. Als je het nog niet weet: Hugging Face is een open-source bibliotheekplatform voor machinaal leren. Dat betekent dat de datasets gratis beschikbaar zijn, inclusief AI-training.

Uiteraard werd het nieuws niet goed ontvangen door gebruikers die specifiek naar Bluesky verhuisden om te ontsnappen aan het tolerante beleid met betrekking tot AI-training. Uren na de reactie verwijderde Daniel van Strien de dataset en bood hij publiekelijk zijn excuses aan. “Hoewel ik de ontwikkeling van tools voor het platform wilde ondersteunen, erken ik dat deze aanpak de principes van transparantie en toestemming bij het verzamelen van gegevens schendt. Mijn excuses voor deze fout”, zei hij.

Een van de kenmerken die Bluesky onderscheidt van andere platforms is het gedecentraliseerde karakter ervan. Dit heeft voordelen, zoals een grotere controle van individuen over hun inhoud. Het betekent echter ook dat berichten beschikbaar zijn in een openbare feed. Derden hebben er dus volledige toegang toe, inclusief de profielen van gebruikers die ze hebben geplaatst.

Als de derde partijen professionals zijn, zoals onderzoekers, volgen ze doorgaans ethische richtlijnen voor het omgaan met datasets. Ze anonimiseren bijvoorbeeld elk bericht, zodat het aan niemand kan worden gekoppeld. Ze bieden ook opties voor gebruikers om de verwijdering van hun inhoud uit de dataset aan te vragen. Zoals velen zullen weten, staat het internet echter vol met trollen.

Er ontstonden meer datasets met miljoenen BlueSky-berichten

Toen ik de reactie van Bluesky-gebruikers op het oorspronkelijke bericht van Daniel van Strien zag, ontstonden er al snel nieuwe datasets met miljoenen berichten van het sociale platform. In de beschrijvingen van de datasets op Hugging Face wordt vaak expliciet vermeld dat deze gebruikt kunnen worden voor AI-trainingen. Dat zal immers degenen die van streek waren door de eerste gedeelde dataset alleen maar verder irriteren, toch?

Bij het verzamelen van gegevens van derden werden geen professionele richtlijnen gevolgd. Dit betekent dat openbaar beschikbare datasets niet alleen de berichten bevatten, maar ook de bijnamen van de mensen die ze hebben gemaakt. De situatie escaleerde tot het punt dat de grootste dataset die tot nu toe is gespot bijna 300 miljoen berichten bevat van gebruikers van de rivaal van X.

PygmalionAI-filiaal Alpine Dale onthulde dat hij een dataset met twee miljoen berichten had samengesteld. PygmalionAI is een LLM die vooral populair is onder gebruikers van op rollenspellen gerichte chatbots. Deze dataset is nog niet gedeeld, maar de beschrijving op de website zegt dat het “kan worden gebruikt voor: het trainen en testen van taalmodellen op sociale media-inhoud; Analyseren van postpatronen op sociale media; Het bestuderen van gespreksstructuren en antwoordnetwerken; Onderzoek naar moderatie van sociale media-inhoud; Natuurlijke taalverwerkingstaken met behulp van sociale mediagegevens”

Er is ook Alim Maasoglu, een individu “gewijd aan het ontwikkelen van meeslepende producten binnen de kunstmatige intelligentieruimte.” De beschrijving van zijn dataset op Hugging Face, bestaande uit zo’n acht miljoen Bluesky-posts, zegt dat het “Het doel is om onderzoekers en ontwikkelaars te voorzien van een alomvattend voorbeeld van sociale-mediagegevens uit de echte wereld voor analyse en experimenten.” In de beschrijving wordt ook vermeld dat de dataset “groeien”, dus het zal in de loop van de tijd groter worden.

De grootste heeft bijna 300 miljoen berichten

Dat gezegd hebbende, komt niets van het bovenstaande in de buurt van de Hugging Face-gebruiker die de bijnaam GAYSEX draagt, met duidelijke bedoelingen om te trollen. Hun dataset bevat niets meer en niets minder dan 298 miljoen berichten van Bluesky-gebruikers.

De beschrijving van de GAYSEX-dataset toont hun bedoelingen op ironische wijze. “NEEE, dit kun je niet doen!’ Post dan niet. Als je niet opgenomen wilt worden, post het dan niet. ‘Maar ik deed XYZ!!’ Doe het dan niet. Kijk. Bijna alles wat op internet staat, blijft tegenwoordig op internet. Vooral grote sociale netwerksites. Je zou kunnen overwegen om een blog te starten. Die hebben een kleinere kans om te worden getrokken voor AI-training + er zijn aanvullende manieren om blogs te beschermen die agressief worden geschraapt”, staat er.

Ironisch genoeg is deze dataset, hoewel deze de meeste Bluesky-posts bevat, ook het minst bruikbaar voor het trainen van AI-modellen. De gebruiker schrapte de gegevens zonder veel zorg, orde of organisatiestructuur. Hun doel was simpelweg om zoveel mogelijk berichten te verzamelen. Ze wilden gewoon veel beter presteren dan de eerdere datasets die waren gedeeld en meer ergernis veroorzaken onder de Bluesky-mensen. Deze gegevensset is “te ongefilterd, dus er zal veel werk moeten worden gedaan” om het geschikt te maken voor AI-training.

De huidige wetgeving inzake gegevensbescherming kan hier niets aan doen

Volgens het rapport van Samantha Cole over 404 Media zijn minstens zes datasets met miljoenen berichten van Bluesky-gebruikers openbaar beschikbaar op Hugging Face. Bovendien lijkt het erop dat de huidige wetgeving inzake gegevensbescherming niet bij machte is om dit tegen te houden. Cole overlegde over de situatie met Neil Brown, een advocaat gespecialiseerd in de Algemene Verordening Gegevensbescherming (AVG). “Het louter verwerken van persoonsgegevens van mensen in de EU betekent niet dat de persoon die deze verwerking uitvoert, onderworpen is aan de EU AVG”, aldus Bruin.

Wat bepaalt of soortgelijke acties onder de AVG vallen, is wat een bepaalde organisatie of individu met de gegevens doet. Het louter publiceren van de dataset betekent niet dat deze in aanmerking komt voor het initiëren van een juridisch proces op basis van de AVG. De verwerking van de gegevens “binnen de materiële en territoriale reikwijdte ervan (AVG) zou moeten vallen” daarvoor, voegt Cole toe. Door “materiële en territoriale reikwijdteZe doelt niet alleen op wat iemand met de dataset doet, maar ook op de regio waarin hij of zij dat doet.