Tumblr gaat data verkopen aan OpenAI & Midjourney, om AI te trainen: Report

Net nadat Reddit een enorme deal heeft getekend om gebruikersgegevens te verkopen om AI te trainen, lijkt het erop dat Tumblr op het punt staat hetzelfde te doen. Een rapport van 404media beweert dat een interne bron de deal vrijwel heeft bevestigd. 404media heeft ook gelekte interne communicatie tussen Tumblr’s moederbedrijf Automattic en de eerder genoemde AI-bedrijven onderzocht. Het rapport beweert dat gebruikers ervoor kunnen kiezen om zich af te melden voor het delen van hun gegevens.

Een interne bron heeft details gedeeld over de aanstaande deal

Een bron met voorkennis deelde de details met 404media, inclusief interne communicatie. Volgens 404media maken de berichten duidelijk dat de deal “aanstaande” is. Automattic, tevens de eigenaar van WordPress, heeft publiekelijk verklaard ook data van die site te zullen delen. In de publieke verklaring wordt niet vermeld met welke bedrijven Automattic gegevens zou delen.

In de documentatie werd ook gesproken over een fout die onlangs is gebeurd. Blijkbaar heeft Tumblr per ongeluk veel gebruikersgegevens geschraapt die privé hadden moeten zijn of op verwijderde berichten. Deze data scrape verzamelde gebruikersgegevens van 2014 tot 2023 en zal worden gegeven aan OpenAI en Midjourney. Cyle Gage, productmanager bij Tumblr, schrijft: “De manier waarop de gegevens werden opgevraagd voor de eerste datadump naar Midjourney/OpenAI betekent dat we een lijst hebben samengesteld met alle openbare berichten van Tumblr tussen 2014 en 2023”. Het zijn vanaf nu alleen nog maar gegevens die gebruikers ervoor kunnen kiezen om ze niet met de AI-bedrijven te delen. Of de per ongeluk geschraapte privégegevens ook werden gedeeld, blijft onbekend.

Wat de verkoopgegevens van Tumblr kunnen betekenen voor AI

Tumblr is een sociale netwerksite waarin microblogging centraal staat. Hoewel dit veel vormen kan aannemen, is het bijna allemaal visueel. OpenAI heeft een AI-model voor het genereren van afbeeldingen genaamd DALL-E. Het hele bedrijfsmodel van Midjourney draait om de AI voor het genereren van afbeeldingen. Voor deze bedrijven zijn enorme hoeveelheden gegevens over informele interactie van onschatbare waarde. Tumblr en WordPress bieden hen precies dat.

Met gegevens van Tumblr zullen beide bedrijven een enorme boost zien in de mogelijkheden voor het genereren van afbeeldingen. Bovendien zijn de specifieke gegevens die Tumblr levert vrij uniek, vooral in dit deel. Memes, afbeeldingen met ondertiteling en unieke kunststijlen die je nergens anders vindt. Tumblr blokkeert al geruime tijd AI-crawlers, zoals vermeld in de verklaring van Automattic. Met deze deal kan het bedrijf niet alleen kapitaliseren op hun data, maar misschien ook de waarde van Tumblr vergroten. Yahoo kocht het bedrijf in 2013 voor $1 miljard, maar Automattic kocht het in 2019 voor slechts $3 miljoen.

Thijs Van der Does