Een van de grootste onderwerpen die tegenwoordig met AI te maken hebben, is het schrapen van gegevens. Om AI-modellen te trainen, moeten bedrijven gegevens uit online bronnen halen om deze in AI-modellen te verwerken. Welnu, we hebben het nieuws gekregen dat OpenAI tonnen gegevens van YouTube heeft geschraapt. We kregen echter ook het nieuws dat zelfs Google gegevens uit YouTube-video's heeft verzameld.
Op dit moment beschermt YouTube de gegevens op zijn platform. Onlangs waarschuwde de CEO van YouTube, Neal Mohan, OpenAI tegen het gebruik van zijn video's om Sora te trainen. Dit is de uiterst realistische AI-videogenerator van OpenAI.
Volgens een rapport van The New York Times heeft OpenAI gegevens verzameld van het enorme platform voor het delen van video's, maar het waren geen videogegevens. Het bedrijf gebruikte een tool genaamd “Whisper” die automatisch audio van YouTube-video's transcribeert en die gebruikt om het model te trainen. Het model in kwestie is GPT-4. Het rapport stelt dat OpenAI transcripties van meer dan een miljoen YouTube-video's kon schrapen.
OpenAI voerde aan dat het informatie uit openbaar beschikbare YouTube-video's gebruikt. Dit zou dus ogenschijnlijk gerechtvaardigd moeten zijn. YouTube stelt echter dat het ongeoorloofd downloaden of scrapen van YouTube-video's verbiedt. Dit betekent dat OpenAI mogelijk in strijd is met de gebruiksvoorwaarden van YouTube. Als dit een groot probleem wordt, zullen we zeker zien dat de bedrijven dit op een gegeven moment voor de rechter zullen uitvechten.
Google schrapt ook YouTube-video's
In een behoorlijk grote wending lijkt het erop dat Google ook gegevens uit YouTube-video's schraapt. Wat het belangrijk maakt, is het feit dat Google het moederbedrijf van YouTube is. Het roept dus vragen op. Weet YouTube hiervan? Zegt Google tegen YouTube dat ze erover moeten zwijgen? Zal YouTube juridische stappen ondernemen tegen het moederbedrijf?
Deze vragen zullen nog geruime tijd onbeantwoord blijven. Het lijkt er in ieder geval op dat Google een kleine wijziging heeft aangebracht in de servicevoorwaarden. Deze verandering stelt het bedrijf volgens het rapport in staat gegevens te verzamelen uit publiekelijk zichtbare bronnen zoals Google Documenten, Google Spreadsheet-bestanden, Google Maps-recensies, enz. Dit betekent dat het bedrijf zijn gegevensverzameling wil opvoeren, en dat betekent niet dat Dit belooft veel goeds voor gebruikers die hun gegevens willen behouden.
Mensen lezen de servicevoorwaarden van bedrijven om te weten wat er met hun gegevens gebeurt. Weten wat er met uw gegevens aan de hand is, helpt echter niets als de bedrijven terloops hun voorwaarden kunnen wijzigen zodat ze deze kunnen schrapen.