Runway heeft mogelijk video's gekopieerd om zijn videomodel te trainen

Runway, een ander AI-bedrijf dat de tech-industrie doorkruist, heeft een krachtig videogeneratiemodel genaamd Gen-3 Alpha. Hoewel het krachtig is, zijn sommige mensen niet blij met de manier waarop het bedrijf video’s heeft verkregen om het te trainen. Volgens een nieuw rapport heeft Runway mogelijk een heleboel video’s gepirateerd om zijn AI-model te trainen, en dat omvat YouTube-video’s.

Laten we niet dom doen; vrijwel elk stukje media dat we op internet zien, is waarschijnlijk gescrapt en gebruikt om een AI-model te trainen. Dit omvat artikelen, boeken, berichten op sociale media, afbeeldingen, podcasts, video’s, etc. Bedrijven schrapen al deze content onder onze neus, en niemand weet het totdat dit soort verhalen naar boven komen. Het is behoorlijk triest.

Een paar maanden geleden was er wat drama over de vraag of OpenAI YouTube scrapte om Sora, hun videogeneratietool, te trainen. Dit laat zien dat YouTube en Google het niet tolereren dat bedrijven data van YouTube scrapen. Sindsdien is de vete stil gebleven.

Runway heeft mogelijk video’s gekopieerd om zijn AI-model te trainen

Het model van Runway is indrukwekkend, maar er is een hoop videodata nodig om het te trainen. Die videodata moet ergens vandaan komen, en 404 Media heeft onthuld waar die data vandaan zou kunnen komen. Het bedrijf ontdekte een spreadsheet met links naar een hoop YouTube-kanalen. Deze kanalen zijn onder andere Mr. Beast, MKBHD, The Try Guys, Nintendo, BuzzFeed, Netflix, Linus Tech Tips, Sam Kolder en nog veel meer.

Runway stopte niet bij YouTube. De spreadsheet bevat ook links naar sites als KissCartoon, een piraterijwebsite. Al met al bevat de spreadsheet bijna 4.000 links. Elke rij in de spreadsheet bevat informatie over de YouTube-kanalen, zoals het aantal video’s en de content die ze maken.

Volgens berichten gebruikte het bedrijf een crawler om deze video’s daadwerkelijk te downloaden en in het model te voeren. Alsof dat nog niet erg genoeg was, zou Runway een proxy hebben gebruikt om te voorkomen dat ze door Google werden gedetecteerd. Het bedrijf wist dus dat Google boos zou zijn dat het videodata zou scrapen.

We weten niet zeker hoeveel van de data in de spreadsheet daadwerkelijk is gebruikt om het model te trainen. We zullen het misschien nooit weten, helaas.

De juridische gevolgen

Dit is iets dat nogal zware juridische consequenties kan hebben. Bedrijven als Microsoft en OpenAI worden al voor de rechter gesleept voor het scrapen van data van de New York Times. YouTube heeft mogelijk de juridische grond om Runway aan te klagen, afhankelijk van hoeveel ruwe videodata het bedrijf heeft gescrapt.

Ook de YouTube-kanalen op de lijst bevatten kanalen van een aantal vrij grote bedrijven zoals Disney, Netflix en Nintendo. We weten zeker dat die bedrijven een aantal auteursrechtelijk beschermde video’s op hun kanalen hebben. De geschiedenis heeft ons geleerd dat als je Nintendo lastigvalt, je gewoon smeekt om een rechtszaak.

Ten slotte kunnen we niet voorbijgaan aan het feit dat het mogelijk video’s van een piratenwebsite heeft gedownload. Als dat waar is, dan is dat een directe overtreding van de wet.

Nu deze informatie openbaar is, moeten we afwachten wat er met het bedrijf en zijn videomodel gebeurt.

Runway heeft mogelijk video’s gekopieerd om zijn videomodel te trainen

Runway heeft mogelijk video’s gekopieerd om zijn AI-model te trainen

De juridische gevolgen