Naar verluidt torrent 82 TB van auteursrechtelijke boeken voor AI Training

Facebook’s moederbedrijf Meta bevindt zich midden in een potentiële juridische puinhoop na een rechtszaak aangespannen door een groep auteurs. De rechtszaak beschuldigt meta van het gebruik van auteursrechtelijk beschermd materiaal zonder toestemming voor de ontwikkeling van AI -producten. In een nieuwe update zou meta tot 82 TB content voor AI -training zijn gestoken.

De “nieuwe” rechtszaak tegen meta ontstond half januari 2025. Het is eigenlijk een vervolg op een rechtszaak die oorspronkelijk in 2023 werd aangespannen die al was afgewezen. De eisers beweerden dat meta illegaal inhoud uit boeken gebruikte om zijn LLAMA AI -modellen te trainen. Destijds werd de hoeveelheid auteursrechtelijk beschermde inhoud die door het bedrijf werd gebruikt, geschat op 32 TB. Naar verluidt zijn de gegevens verkregen van Libgen, een dataset die een tijdje op internet beschikbaar was en inhoud van allerlei soorten boeken bevatte – van komedie tot wetenschap.

De grootte van datasets die naar verluidt door Meta voor AI -training worden getroffen, bereikt 82 TB

Dat gezegd hebbende, de laatste updates over de zaak laten zien dat meta mogelijk een veel grotere hoeveelheid gegevens heeft gebruikt. Naast Libgen gebruikte meta naar verluidt Anna’s archief- en z-bibliotheekdatasets. In totaal vermeldt het document dat Meta daadwerkelijk ongeveer 82 TB aan bestanden voor AI -training heeft getroffen.

Het in de zaak gepresenteerde bewijsmateriaal toont de vermeende zorgen van werknemers die betrokken zijn bij het project van Meta. ‘Ik denk niet dat we illegaal materiaal moeten gebruiken. Ik moet hier echt een lijn trekken“Zei een senior AI -onderzoeker naar verluidt in 2022.”Het gebruik van illegaal materiaal moet buiten onze ethische drempel liggen‘Zei een andere onderzoeker naar verluidt. ‘Scihub, ResearchGate, Libgen zijn in principe zoals Piratebay of zoiets, ze verspreiden inhoud die wordt beschermd door auteursrechten en ze inbreuk maken op‘Voegden ze eraan toe.

De oorspronkelijke klacht beweert ook dat Mark Zuckerberg op de hoogte was van de oorsprong van de datasets. In een vergadering in 2023 keurde de CEO van Meta naar verluidt echter het gebruik ervan goed. ‘We moeten dit spul vooruit helpen … we moeten een manier vinden om dit allemaal te deblokkeren‘Zei Zuckerberg naar verluidt. ‘Torrenting van een zakelijke laptop voelt niet goed (hardop lachend emoji),‘Naar verluidt vertelde de ene meta -medewerker de andere in een gesprek.

Meta had kunnen proberen te voorkomen dat sporen van downloads achterlaten

De documenten beweren zelfs dat Meta stappen heeft gezet om zijn stappen te verbergen. Naar verluidt heeft het bedrijf geprobeerd te voorkomen dat sporen achterlaten die het volgen van dataset -downloadactiviteit naar zijn servers zouden kunnen volgen. Dit houdt in dat meta opzettelijk heeft geprobeerd om auteursrechtwetten te vermijden.

Het lijkt erop dat het niet snel een oplossing zal hebben. De eerste uitspraken hierover worden binnen enkele maanden verwacht. Bovendien, als de output negatief is voor meta, zullen ze zeker in beroep gaan, wat het proces verder zal verlengen. Het is mogelijk dat we uiteindelijk geen laatste oordeel hebben voor deze zaak tot jaren vanaf nu. Deze rechtszaak – en anderen – is een voorbeeld van hoe het auteursrecht voor AI -training jaren later in een “grijze gebied” blijft.