Reddit zou alle zoekmachines kunnen blokkeren, behalve Google

Google is een bedrijf dat om de een of andere reden consequent in het nieuws blijft. Het kunnen goede of slechte redenen zijn. Het bedrijf maakte golven door een deal te sluiten met Reddit om zijn data te gebruiken om zijn AI te trainen. Nou, het lijkt erop dat Reddit, handig genoeg, alleen zoekresultaten voor Google toont en geen andere zoekmachine. Dit zou een zich ontwikkelend verhaal kunnen zijn, dus er kunnen meer details naar buiten komen naarmate de tijd verstrijkt.

Op dit moment sluiten grote mediabedrijven en publicaties deals waarbij ze hun data overdragen aan AI-bedrijven. Bedrijven als Axel Springer (eigenaar van Business Insider), Vox Media (eigenaar van The Verge) en News Corp (eigenaar van meer dan een dozijn publicaties) zijn bijvoorbeeld partnerschappen van miljoenen dollars aangegaan waarmee OpenAI legaal op hun data kan trainen.

Nou, voordat veel van deze deals plaatsvonden, ging Google een partnerschap aan met Reddit, waardoor de zoekgigant toegang kreeg tot zijn content en data. Dat is jammer, want we kwamen hier pas achter nadat we erachter kwamen dat OpenAI tonnen data van social media sites scrapte. Dus, deze grote bedrijven sloten deals die AI onze data zouden geven zonder dat we het wisten.

Reddit lijkt zoekmachines te blokkeren, maar Google niet

Google is niet de enige zoekmachine aan deze kant van de Mississippi. Andere zoekmachines leveren al jaren resultaten op, zoals Bing (Google’s grootste concurrent), DuckDuckGo, Mojeek en Qwant. Er zijn er honderden, maar we kennen er meestal maar een handvol.

Nou, het lijkt erop dat Reddit er maar één kent, en dat is Google. Volgens een nieuw rapport van 404 Media, zul je bij het zoeken naar content met behulp van “site:reddit.com” geen recente resultaten zien als je Google niet gebruikt. Het lijkt erop dat je geen resultaten van de afgelopen week of zo zult zien. Dit geldt alleen voor zoekmachines die niet afhankelijk zijn van de indexering van Google. Als een zoekmachine de crawlers van Google gebruikt, dan zal deze resultaten tonen.

Gebruikers vermoeden dat dit komt door de deal die de twee bedrijven een paar maanden geleden sloten. Het is gewoon zo handig dat Reddit en Google een contentdeal sloten en plotseling hebben alle niet-Google-zoekmachines geen toegang meer tot de recente content van Reddit. Dat is echter nog niet bevestigd.

Rupsen

Hoewel er geen bewijs is dat Reddit andere zoekmachines blokkeert vanwege de deal, zou het logisch zijn. Een klein deel van AI-technologie heeft te maken met zogenaamde “crawlers”. Crawlers “crawlen” door websites heen en halen er belangrijke informatie uit. Als je een website hebt, staan ​​er altijd crawlers van verschillende bedrijven op. Het is belangrijk, want zo indexeren zoekmachines je site. Zo laten ze je site zien in zoekresultaten. Dus om je website te zien in de zoekresultaten van Google, moet je site worden gecrawld door Googlebot, de crawler van Google.

Crawlers zijn ook berucht omdat AI-bedrijven ze gebruiken om data te extraheren om hun modellen te trainen. Nou, er is een manier om crawlers te bestrijden. Site-ontwikkelaars kunnen “Robots.txt” gebruiken. Dit is een bestand dat hen vertelt de data van die site niet te indexeren. Deze bestanden kunnen echter ook uitzonderingen maken voor bepaalde crawlers, waardoor ze de site wel mogen crawlen en andere niet.

Nou, aangezien Reddit Google toestaat om zijn data te gebruiken, is er een kans dat het alleen Google toestaat om het te crawlen, dus alleen het kan toegang krijgen tot zijn data om Gemini te trainen. Echter, aangezien andere bedrijven het niet kunnen crawlen om hun modellen te trainen, kunnen ze ook Reddit niet indexeren en zoekresultaten niet tonen. Dat is slechts speculatie.

De situatie van de CEO van Mojeek

Volgens 404 Media vertelde Mojeek’s CEO, Colin Hayhurst, over zijn ervaring met dit probleem. Het bedrijf realiseerde zich dat Reddit de crawler van Mojeek blokkeerde om de website te indexeren.

Wat het nog erger maakt, is het feit dat Reddit niet op zijn e-mails heeft gereageerd. Het is bijna twee maanden geleden dat hij de social media site een e-mail stuurde. Hij vertelde 404 Media in een telefoongesprek dat Reddit “alles doden voor zoeken behalve Google.”

Het is ons nog nooit eerder overkomen,” hij ging verder. “Omdat dit ons overkomt, worden we geblokkeerd, meestal door onwetendheid of domheid of wat dan ook, en wanneer we contact opnemen met de site, kun je dat zeker laten oplossen, maar we hebben nog nooit eerder een antwoord van iemand gehad.”

Dat is waarschijnlijk het meest frustrerende deel van deze beproeving. Hayhurst probeert het probleem al meer dan een maand op te lossen, maar er is geen vooruitgang geboekt. We weten niet zeker of andere zoekmachines ook dezelfde problemen ervaren als hij.

Reddit beweert dat er geen sprake is van kwaad opzet

Reddit heeft radiostilte gehouden tegen Hayhurst, maar niet tegen iedereen anders. Een woordvoerder van het bedrijf reageerde op de beschuldigingen.

Dit heeft helemaal niets te maken met onze recente samenwerking met Google. Het is niet juist om te zeggen dat recente Reddit-resultaten niet verschijnen in niet-Google-zoekmachines vanwege onze recente deal met Google.zei woordvoerder Tim Rathschmidt tegen 404 Media. Volgens Rathschmidt schiet Reddit crawlers neer die data willen gebruiken om AI-modellen te trainen.

Rathschmidt blijft zeggen dat Reddit “in discussies met meerdere zoekmachines. We zijn er niet in geslaagd om met alle zoekmachines tot een overeenkomst te komen, omdat sommigen niet in staat of niet bereid zijn om afdwingbare beloftes te doen met betrekking tot hun gebruik van Reddit-content, inclusief hun gebruik voor AI.

Als dat waar is, dan zou dat goed zijn voor Reddit. We kunnen echter niet negeren dat alleen Google-zoekmachines Reddit lijken te bereiken, en dat is het enige bedrijf dat een deal van $ 60 miljoen met hen heeft gesloten. Met die informatie lijkt het erop dat Reddit alleen geïnteresseerd is in het laten crawlen van sites als ze betalen. Dat zal worden bevestigd als we nieuws zien over Microsoft dat een deal met Reddit heeft gesloten, en Bing-resultaten plotseling recente Reddit-berichten in hun resultaten gaan weergeven.

Reddit is al te kwader trouw tegenover zijn gebruikers. Vorig jaar was er de hele controverse over het bedrijf dat een exorbitant bedrag vroeg om toegang te krijgen tot zijn API. Daarna gaf het de gegevens van zijn gebruikers door aan Google voor gebruik in AI. Als Reddit echt toegang tot zijn site verkoopt voor zoekmachines, zou het zijn visie in de publieke belangstelling wel eens kunnen verpesten.

Ontwikkelend verhaal

Zoals gezegd is dit nog een ontwikkelend verhaal, dus het zal worden bijgewerkt als er meer informatie naar boven komt. We wachten nog steeds op een soort reactie van Google over de hele situatie.

Thijs Van der Does