Bij premium-uitgevers werden de gegevens vaker geschrapt dan we dachten

Een belangrijk onderwerp in AI is hoe AI-bedrijven gegevens verzamelen om hun modellen te trainen. Bedrijven als The New York Times klagen OpenAI en Microsoft aan voor het schrappen van de inhoud ervan om ChatGPT te trainen. Hoewel deze bedrijven het merendeel van hun gegevens uit openbaar beschikbare bronnen halen, lijkt het erop dat ze gegevens verzamelen van meer premiumuitgevers dan we zouden denken.

AI-bedrijven die betalende inhoud gebruiken om hun modellen te trainen, bevinden zich nog steeds in een juridisch grijs gebied. Er wordt gedebatteerd of dit technisch gezien een inbreuk op het auteursrecht is. Als de chatbot in kwestie hele delen van de betaalde content reproduceert, kan dat reden zijn voor een rechtszaak. Dit is één reden voor de rechtszaak tegen de New York Times. Het is ook de reden waarom AI-bedrijven deals willen sluiten met zoveel uitgevers. Dit is onder meer bedoeld om juridische problemen te voorkomen. Het enige probleem is dat deze AI-bedrijven hoogstwaarschijnlijk gegevens achter de betaalmuur verzamelden lang voordat de publicaties ervan op de hoogte waren.

AI-bedrijven halen meer gegevens van premiumuitgevers binnen dan velen denken

Een nieuw rapport van Ziff Davis (via Axios) heeft zojuist enig licht geworpen op hoeveel premium content AI-bedrijven hebben verzameld. Voor het rapport analyseerden co-auteurs George Wukoson en Joey Fortuna verschillende LLM’s en de inhoud die werd gebruikt om hen te trainen. Wat ze ontdekten was dat een groot deel van de gegevens die werden gebruikt om enkele van de grootste modellen te trainen, afkomstig was uit vijftien premiumpublicaties.

Een belangrijk voorbeeld was GPT-2, dat werd getraind door OpenAI. De onderzoekers namen een open-source replica van de OpenWebText-dataset, die OpenAI gebruikte om het model te trainen. Ze ontdekten dat ongeveer 10% van de informatie in die dataset afkomstig was van premiumwebsites. Andere datasets die werden gebruikt om oudere modellen te trainen, gebruikten ook een heleboel gegevens van premium-sites.

Dit betekent dat sommige van de oudere LLM’s (waarschijnlijk modellen die nooit gebruikersgerichte chatbots aandreven) bestonden uit een aanzienlijke hoeveelheid informatie van premiumsites. Hoewel dat het geval is, blijkt uit het rapport dat sommige van die oudere datasets nog steeds worden gebruikt om nieuwere modellen te trainen. Dit betekent dat modellen nog steeds materiaal met een betaalmuur kunnen gebruiken.

Dus hoewel verschillende publicaties deals hebben gesloten met AI-bedrijven, gebruiken de AI-modellen die veel van de krachtigste chatbots op de markt aandrijven nog steeds informatie uit betaalmuurinhoud.