Uitgevers adopteren agressieve nieuwe tactieken om AI-scraping te blokkeren

Tientallen jaren lang vertrouwden websites op het eenvoudige robots.txt-bestand om met webcrawlers te communiceren. Dit bestand fungeert als poortwachter en geeft aan welke inhoud eerlijk spel is en welke verboden terrein is. Dit is echter grotendeels een beleefdheidsregel en geen afdwingbare regel. Deskundigen merken op dat robots.txt geen daadwerkelijk handhavingsmechanisme biedt, maar slechts als een beleefd verzoek functioneert. Grote spelers als Google respecteren deze standaard vanwege publieke controle. Kleinere, speciaal gebouwde schrapers negeren dit echter vaak volledig. Ontwikkelaars die eenvoudige scrapers bouwen, vinden het gemakkelijker en minder werk om het bestand te omzeilen dan om codecontroles uit te voeren om het te respecteren.

Dit gebrek aan handhaving heeft een nieuw probleem aangewakkerd: schrapers van derden. Wanneer uitgevers expliciet AI-bedrijven proberen te blokkeren, creëren ze eenvoudigweg een markt voor diensten van derden die opscheppen over het stelen van inhoud, waarbij ze vaak de betaalmuren omzeilen. Hierdoor kunnen grote AI-modellen ‘live’ nieuwsvragen beantwoorden met behulp van informatie die effectief is overgenomen uit publicaties waar nooit toestemming voor is gegeven. Deze praktijk groeit, wat leidt tot meer gesprekken onder grote krantenuitgevers over de toenemende dreiging.

De nieuwe auteursrechtoorlog: uitgevers bestrijden AI-webscrapers met tarpits en code

De tol die het constante, ongeautoriseerde AI-scrapen van uitgevers eist, is zowel aanzienlijk als meetbaar. Voor velen is het resultaat een enorme daling van het directe webverkeer. AI-modellen synthetiseren immers inhoud en verminderen de noodzaak voor gebruikers om door te klikken naar de bron. Bovendien worden uitgevers geconfronteerd met stijgende operationele kosten.

Wikipedia rapporteerde bijvoorbeeld een toename van 50% in het bandbreedteverbruik in korte tijd. de Wikimedia Foundation schreef dit rechtstreeks toe aan geautomatiseerde programma’s die de enorme catalogus van openlijk gelicentieerde afbeeldingen schrapten. Deze spanning dwingt technische teams tot een constante strijd om de enorme toestroom van schraperverkeer in goede banen te leiden.

Als reactie hierop ziet de sector gecoördineerde inspanningen om nieuwe regels vast te stellen. De Internet Engineering Task Force (IETF) heeft de AI Preference Working Group (AIPREF) opgericht. Deze groep heeft tot doel een gemeenschappelijk vocabulaire te creëren waarmee uitgevers duidelijk hun voorkeuren kunnen aangeven met betrekking tot het gebruik van hun inhoud voor AI-training. Het uiteindelijke doel is om het zachte “alsjeblieft niet” van robots.txt te transformeren in een technische “dit is verboden” harde lijn.

Nieuwe wapens in het tegenschrapende arsenaal

Omdat duidelijke regelgeving nog steeds ontbreekt, nemen sommige uitgevers actieve tegenmaatregelen:

AI Tarpits: Deze cyberbeveiligingstactiek houdt AI-crawlers in de val door ze door een “oneindig doolhof” van statische bestanden zonder exit-links te sturen. De crawlers komen vast te zitten en verspillen hun eigen middelen bij het navigeren door de eindeloze lus. Sommige ontwikkelaars gebruiken zelfs succesvolle tarpits om gevangen AI-schrapers te ‘vergiftigen’ door ze onzin of ‘wartaalgegevens’ te geven die zijn ontworpen om de AI-modellen te corrumperen.

Bewijs van werk: Andere verdedigingen, zoals de Anubis-uitdaging, werken als een omgekeerde CAPTCHA. In plaats van te controleren of een bezoeker een mens is, dwingen ze de machine van de bezoeker een cryptografische proof-of-work-uitdaging te voltooien. Voor AI-bedrijven die enorme botfarms runnen, vereisen deze berekeningen aanzienlijke verwerkingskracht, waardoor de kosten voor het scannen van een site onbetaalbaar worden.

Cloudflare mengt zich in de strijd

In een enorme beweging in de sector heeft Cloudflare, een grote aanbieder van internetinfrastructuur, onlangs zijn beleid teruggedraaid om AI-bots nu standaard automatisch te blokkeren. Voorheen bood het bedrijf een optioneel “opt-out”-model aan. Dit besluit kreeg steun van meer dan een dozijn grote media-uitgevers. De lijst omvat The Associated Press, The Atlantic en Condé Nast. Cloudflare biedt ook een agressievere tool aan, genaamd AI Labyrinth, die slecht botgedrag detecteert en ongewenste crawlers in een val van door AI gegenereerde lokpagina’s lokt om hun bronnen te verspillen.

Thijs Van der Does