Meta aangeklaagd wegens vermeende training van AI met inhoud uit illegale boeken

Meta is een van de bedrijven die heeft besloten zwaar in te zetten op kunstmatige intelligentie om tot de topbedrijven in de technologie-industrie te blijven behoren. Het bedrijf heeft zijn eigen serie AI-modellen, Llama. Net als andere bedrijven heeft Meta Llama getraind met behulp van datasets met grote hoeveelheden informatie die op internet beschikbaar zijn. Een groep auteurs klaagt Meta echter aan omdat ze naar verluidt illegale boeken hebben gebruikt om hun AI-modellen te trainen.

Auteurs als onder meer Ta-Nehisi Coates en cabaretier Sarah Silverman maken deel uit van de groep die zegt dat Meta een dataset heeft gebruikt met inhoud uit gestolen boeken. Niet alleen dat, de CEO van het bedrijf, Mark Zuckerberg, zou zich ervan bewust zijn geweest dat de dataset illegale boeken bevatte voordat hij zijn goedkeuring gaf voor het gebruik ervan in de lamatraining.

Meta gebruikte opzettelijk illegale boeken om AI te trainen, claims van rechtszaken

Documenten met betrekking tot de rechtszaak werden halverwege deze week openbaar gemaakt. De zaak, ingediend bij een federale rechtbank in Californië, komt voort uit een andere zaak die in 2023 werd ingediend en vorig jaar werd afgewezen door de Amerikaanse districtsrechter Vince Chhabria. De auteurs beweerden destijds dat Meta AI tekst kon genereren die inbreuk maakte op hun auteursrechten. De oorspronkelijke rechtszaak beweerde ook dat Meta AI de copyrightmanagementinformatie (CMI) uit de inhoud van hun boeken had verwijderd.

De groep eisers wil dat de zaak wordt heropend

De groep eisers beweert echter dat nieuwe bevindingen een heropening van de zaak rechtvaardigen. Ze zeggen dat ze toegang hadden tot interne metacommunicatie waar Zuckerberg “keurde Meta’s gebruik van de LibGen-dataset goed, ondanks zorgen binnen Meta’s AI-managementteam (en anderen bij Meta) dat LibGen ‘een dataset is waarvan we weten dat deze illegaal is’.’” LibGen is een dataset voor AI-training die een tijdlang op internet beschikbaar was. Het bevatte ongeveer 32 TB aan inhoud gericht op allerlei soorten boeken, inclusief wetenschappelijke inhoud.

De eisers vertelden rechter Chhabria dat de nieuwe bevindingen niet alleen hun eerdere beweringen versterken. Ze denken zelfs dat ze misschien ook een nieuwe computerfraudeclaim zullen opnemen. De rechter zal de eisers toestaan hun nieuwe bewijsmateriaal in een gewijzigde klacht te presenteren. Hij uitte echter ook zijn scepsis dat de rechtszaak voor de auteurs succesvol zou kunnen zijn.