Reddit klaagt Perplexity AI aan wegens vermeende gegevensschraping en inhoudsdiefstal

Beschouw AI als een kind dat opgroeit. Het kind weet niet veel, maar hoe meer je het leert, hoe slimmer het wordt. Dat geldt ook voor AI: hoe meer informatie en gegevens er worden ingevoerd, hoe slimmer het wordt. De vraag is echter waar die gegevens vandaan komen. Helaas is Perplexity in juridische problemen beland, omdat Reddit een rechtszaak heeft aangespannen tegen het AI-bedrijf omdat het naar verluidt de inhoud ervan heeft gestolen.

Reddit spant een rechtszaak aan tegen Perplexity AI

Volgens de rechtszaak is Reddit op de hoogte van data-scraping-serviceproviders die het internet aan data hebben verzameld, die vervolgens worden gebruikt om AI-modellen te trainen. Uit de rechtszaak blijkt ook dat Reddit in mei 2024 contact opnam met Perplexity en eiste dat het AI-bedrijf zou stoppen met het schrapen van zijn gegevens.

Maar volgens Perplexity heeft het bedrijf geen Reddit-inhoud gebruikt om zijn AI-modellen te trainen. Het bedrijf zei ook dat het de robots.txt van Reddit zou respecteren. Na de brief die Perplexity naar Reddit stuurde, ontdekte het bedrijf echter dat het aantal Reddit-citaten dat door Perplexity werd gebruikt, feitelijk was toegenomen. Het bedrijf testte het uit door een bericht te maken dat alleen door Google kon worden gecrawld. Binnen enkele uren produceerde Perplexity de inhoud van dat bericht.

Reddit zegt: “De enige manier waarop Perplexity die Reddit-inhoud had kunnen bemachtigen en deze vervolgens in zijn ‘antwoord-engine’ had kunnen gebruiken, is als zij en/of haar medebeklaagden Google-SERP’s voor die Reddit-inhoud zouden schrappen en Perplexity die gegevens vervolgens snel in haar antwoord-engine had opgenomen.

Jesse Dwyer, hoofd communicatie van Perplexity, heeft sindsdien gereageerd met een eigen verklaring. In een gesprek met The Verge zei Dwyer: “Perplexity heeft de rechtszaak nog niet ontvangen, maar we zullen altijd krachtig vechten voor de rechten van gebruikers op vrije en eerlijke toegang tot publieke kennis. Onze aanpak blijft principieel en verantwoordelijk omdat we feitelijke antwoorden bieden met nauwkeurige AI, en we zullen geen bedreigingen tegen de openheid en het publieke belang tolereren.”

Niet de eerste keer

Perplexity is niet het eerste bedrijf dat in de problemen komt nadat het gegevens van andere platforms zou hebben gebruikt om zijn AI-modellen te trainen. De New York Times heeft meerdere rechtszaken aangespannen tegen AI-bedrijven zoals OpenAI en zelfs Microsoft. Ook grote publicaties hebben de overheid opgeroepen om deze diefstal van data door AI-bedrijven te stoppen.

Niet alle bedrijven maken zich echter schuldig aan deze zogenaamde diefstal. Andere bedrijven, zoals Amazon, hebben deals gesloten met publicaties als de New York Times om hun gegevens te gebruiken. Perplexity heeft ook iets soortgelijks gedaan. Het bedrijf heeft misschien geen deal met Reddit, maar wel met andere uitgevers. Dit maakt deel uit van het Comet Plus-abonnement.

Voor degenen die niet bekend zijn: Comet Plus is een abonnement voor $ 5 per maand. Het geeft gebruikers toegang tot ‘premium content’ van vertrouwde uitgevers en journalisten. Van dat abonnement zal Perplexity die uitgevers een korting geven.