Google verdedigt het gebruik van gratis webinhoud voor AI-training

Vanaf het allereerste begin van de AI-boom is er altijd één debat geweest: het eigendom van inhoud. Om hun diensten te ontwikkelen, gebruiken AI-bedrijven enorme hoeveelheden gegevens die beschikbaar zijn op internet. Veel uitgevers zijn echter van mening dat zij onterecht zijn benadeeld doordat zij geen eerlijke vergoeding ontvangen. In een nieuwe ontwikkeling is er controverse over het standpunt van Google over de betaling van AI-trainingen, toen dit onder de loep werd genomen tijdens een hoorzitting met de Britse Lords Communications and Digital Committee.

Roxanne Carter, public affairs-manager bij Google, verduidelijkte dat het bedrijf niet gelooft dat het moet betalen voor ‘vrij beschikbare’ inhoud die wordt gebruikt om hun AI-modellen te trainen.

Google verdedigt zijn standpunt om uitgevers niet te betalen voor AI-training op het gebied van openbare data

De zaak van Google is gebaseerd op een specifieke definitie van hoe AI werkt. Carter zegt dat AI-modellen zoals Gemini geen databases of systemen zijn om informatie te vinden. In plaats daarvan kijken ze naar enorme hoeveelheden gegevens om statistische verbanden en patronen tussen ideeën en woorden te vinden. Google zegt dat het einddoel is om deze patronen te gebruiken om ‘geheel nieuwe inhoud’ te maken. Ze beweren dat hun AI niet alleen kopieert wat uitgevers of makers hebben gedaan.

Google betaalt niet voor training op het open web, maar maakt wel onderscheid tussen algemene webscraping en gespecialiseerde toegang. Het bedrijf sluit actief deals voor archiefinhoud en gespecialiseerde datasets die niet beschikbaar zijn voor het publiek. Kortom, het bedrijf is bereid te betalen voor ‘toegang’ tot gegevens die niet op hun eigen platform staan. Maar ze doen dit niet om de AI te trainen in wat zij beschouwen als het publieke domein van het internet.

Google’s AI-overzichten: het opt-out-dilemma

Voor uitgevers is de situatie complexer. Google benadrukt een tool genaamd ‘Google Extended’, waarmee website-eigenaren op Google Zoeken kunnen blijven terwijl ze zich afmelden voor het gebruik van hun inhoud om AI-modellen zoals Gemini te trainen. Dit lijkt op papier een redelijk compromis. Maar er blijft een aanzienlijk grijs gebied bestaan met betrekking tot ‘AI-overzichten’: de samenvattingen die helemaal bovenaan de zoekresultaten verschijnen.

Op de vraag of uitgevers zich met name konden afmelden voor AI Overviews, waren de vertegenwoordigers van Google vaag. Het gebruik van enkele specifieke tags lijkt een manier om op dit moment niet in deze samenvattingen te verschijnen. Helaas kan het toevoegen van deze tags het voor mensen ook moeilijker maken om een site te vinden in de reguliere zoekresultaten. Dit plaatst kleinere uitgevers in een moeilijke positie: ze kunnen AI hun werk laten samenvatten (wat het aantal directe klikken zou kunnen verlagen) of het risico lopen hun positie in de zoekresultaten volledig te verliezen.

De kleinere spelers zouden het zwaarst getroffen kunnen worden

Overheidsfunctionarissen zijn bezorgd dat grote mediabedrijven lucratieve deals kunnen sluiten met technologiegiganten, maar kleinere bedrijven lopen vaak de fout in. Mensen zijn bang dat AI-samenvattingen kunnen concurreren met de artikelen die ze samenvatten. Dit betekent dat AI-samenvattingen mogelijk het eigen werk van de maker gebruiken om mensen op de zoekpagina te houden in plaats van ze naar de oorspronkelijke bron te sturen.

Toezichthoudende instanties blijven over deze kwesties overleggen. Ondertussen blijft de definitie van ‘redelijk gebruik’ in het tijdperk van AI de ultieme vraag. Voorlopig houdt Google vast aan het vaste idee dat het open web een gratis klaslokaal is voor hun AI, ook al beweren de makers van die inhoud dat hun ‘gratis’ informatie de AI in de eerste plaats waardevol maakt.