AI-bedrijven zouden YouTube-videotranscripties hebben gebruikt voor training

Bedrijven die zich bezighouden met generatieve kunstmatige intelligentie (Gen AI) hebben YouTube-videotranscripties geschraapt om hun engines te trainen, zo beweert een nieuw rapport. Verschillende populaire YouTubers zoals MrBeast en Marques Brownlee hebben hun zorgen geuit en beweren dat hun content deel uitmaakt van de enorme datasets.

Onderzoek onthult dat ondertitels van meer dan 170.000 YouTube-video’s zijn gescrapt

Volgens een onderzoek door Bewijs Nieuwsmeerdere grote bedrijven hebben YouTube-video’s gescrubd om hun AI-engines te trainen. De observaties en claims werden samen met Wired gepubliceerd.

Het onderzoek beweert dat Apple, Anthropic, Nvidia en Salesforce tot de verschillende technologiebedrijven behoorden die “YouTube-ondertitels” gebruikten. Concreet gesproken hebben deze bedrijven gezamenlijk ondertitels van 173.536 YouTube-video’s gejat.

In totaal werden meer dan 48.000 YouTube-kanalen door deze bedrijven gebruikt om hun AI-datasets te bouwen en hun AI-engines te trainen, zo beweert het rapport. YouTubers zoals MrBeast (289 miljoen abonnees), MKBHD (19 miljoen abonnees), PewDiePie (111 miljoen abonnees) en nog een aantal anderen hebben hun content in de datasets.

Apple heeft gegevens voor hun AI van verschillende bedrijven verkregen

Een van hen schraapte tonnen aan data/transcripten van YouTube-video’s, waaronder de mijne

Technisch gezien vermijdt Apple hier het woord ‘fout’, omdat zij niet degenen zijn die de lat hoog leggen.

Maar dit zal nog lang een evoluerend probleem blijven https://t.co/U93riaeSlY

— Markies Brownlee (@MKBHD) 16 juli 2024

Naast YouTubers zijn er ook video’s van nieuwsorganisaties zoals ABC nieuwsde BBCEn De New York Times maken deel uit van de dataset. Simpel gezegd, meerdere techgiganten hebben YouTube-ondertitels in hun AI-engines gestopt.

Tool om te bevestigen dat AI-bedrijven online geplaatste YouTube-gegevens hebben gebruikt

Volgens De randde YouTube video subtitles dataset is onderdeel van een grotere verzameling materiaal. Technisch gezien, baseerde de meerderheid van de bedrijven die YouTube data gebruikten zich op de non-profit EleutherAI dataset genaamd The Pile. Dit zou een open-source collectie moeten zijn die ook datasets bevat van boeken, Wikipedia artikelen en content die beschikbaar is in het publieke domein.

Om te bewijzen dat AI-bedrijven YouTube gebruiken om hun datasets te bouwen en hun engines te trainen, Bewijs Nieuws heeft ook een interactieve opzoektool uitgebracht. Elke YouTuber, of zelfs het gewone publiek, kan de gegevens controleren.

“Het is diefstal”, aldus Dave Wiskus, de CEO van Nebula, een streamingdienst die gedeeltelijk eigendom is van de makers, van wie sommigen hun werk van YouTube hebben gehaald om AI te trainen.”https://t.co/X34e3LuODW

— Distributed AI Research Institute is op Mastodon (@DAIRInstitute) 16 juli 2024

Naast het voor de hand liggende probleem van het belonen of compenseren van YouTubers voor hun content, hebben deze bedrijven ook te maken met juridische problemen. YouTube stelt dat het gebruik van zijn videocontent om AI te trainen — inclusief transcripties — in strijd zou zijn met de voorwaarden van het platform.

YouTube heeft naar verluidt niet gereageerd op het rapport. Het is echter zeer waarschijnlijk dat moederbedrijf Google stappen zal ondernemen om het videoplatform en de makers van de content te beschermen.

Tot nu toe lijken de datasets platte tekstgegevens te bevatten. Met andere woorden, AI-bedrijven zouden alleen videotranscripties of ondertitels kunnen gebruiken, en geen video, om hun engines te trainen. Overigens bevatten de platte tekstgegevens ook live vertalingen van de video’s in het Japans, Duits en Arabisch.

Google heeft eerder toegegeven dat het een aantal YouTube-video’s heeft verwijderd om zijn AI-engines te trainen. De zoekgigant heeft er echter voor gezorgd dat het passende overeenkomsten heeft met YouTubers. Het spreekt voor zich dat EleutherAI mogelijk geen dergelijke overeenkomst heeft met elk van de YouTubers wiens video’s nu deel uitmaken van de datasets die door techgiganten worden gebruikt om hun AI te trainen.