De nieuwe crawler van Meta kan uw pagina scrapen, zelfs als u dat niet wilt

Meta is uit de Metaverse gekomen om een ​​belangrijke speler te worden op het gebied van AI. Als zodanig heeft het bedrijf een eigen team van webcrawlers die pagina’s scrapen die niet het Robots.txt-protocol hebben. Of dat dachten we tenminste. Volgens enkele nieuwe rapporten lijkt het erop dat de nieuwe crawlers van Meta niet bang zijn voor robots, aangezien ze dat protocol omzeilen.

Grote bedrijven gebruiken al jaren webcrawlers om in websites over het hele internet te duiken en data te scrapen. De mensen hebben echter hun standpunt duidelijk gemaakt; ze willen niet dat bedrijven hun data scrapen zonder hun toestemming. Natuurlijk gehoorzamen alle bedrijven onze wensen en vermijden ze het scrapen van data van websites zonder het Robots.txt-bestand… toch?

We hebben het hier over grote bedrijven. Het is duidelijk dat ze manieren hebben gevonden om mensen die hen vertrouwen in het gezicht te spugen. Er zijn berichten dat bedrijven als Perplexity, OpenAI en Anthropic AI allemaal manieren hebben gevonden om sites te scrapen die het bestand Robots.txt hebben.

Wat is Robots.txt?

Voor het geval u niet weet wat dit bestand is, Robots.txt is een stukje code dat voorkomt dat webcrawlers gegevens van een site schrapen. Het is in gebruik sinds eind jaren 90, dus het vindt zijn oorsprong in de opkomst van het tijdperk van de zoekmachine. De consensus was dat als u het bestand op uw site had, u veilig zou zijn voor allerlei soorten webcrawlers. We weten zeker dat er in de loop van bijna 30 jaar een bedrijf is gekomen met een manier om dit te omzeilen. Misschien was het een paar jaar geleden geen voorpaginanieuws, maar de zaken zijn veranderd sinds de hele AI-hausse.

Nu we weten hoe bedrijven aan data komen om hun AI-modellen te voeden, wordt elk bedrijf dat Robots.txt omzeilt met een koud oog bekeken. En dat is terecht. Er zijn mensen die gewoon willen voorkomen dat hun data wordt gescraped. Weten dat bedrijven hun wensen ronduit negeren, is een enorme klap in het gezicht.

De nieuwe webcrawlers van Meta negeren mogelijk het Robots.txt-bestand

Als u denkt dat Meta een perfecte engel is als het gaat om data-acquisitie, dan heeft u het mis. Onder de andere bedrijven die het bestand omzeilen, wijst een nieuw rapport op een duo crawlers dat de Robot ook zou kunnen vermijden om zijn chatbot te trainen.

Zoals Originality.AI ontdekte, lanceerde Meta ergens in juli twee nieuwe crawlers. De ene heet Meta-ExternalFetcher en de andere heet Meta-ExternalAgent. De reden waarom Meta twee crawlers heeft meegebracht, is omdat ze twee verschillende functies uitvoeren.

Meta verklaarde dat Meta-ExternalAgent is “voor use cases zoals het trainen van AI-modellen of het verbeteren van producten door content direct te indexeren.” Dus, het is vrij standaard spul, zo te horen. Het zal naar verschillende websites reizen en de data van hen schrapen om te helpen bij het trainen van de Llama-modellen van het bedrijf.

De tweede lijkt niet direct informatie van sites te schrapen. Het lijkt erop dat dit is bedoeld om weblinks op te halen. We weten niet zeker waar de weblinks voor gebruikt gaan worden, maar de bot lijkt vooral bedoeld te zijn voor Meta AI Assistant. Deze klinkt niet zo sluw als de eerste.

Sluipend langs de robot

Hoewel de eerste niet echt heel anders klinkt, is hij om een ​​paar redenen opmerkelijk. Ten eerste stelt Meta dat Meta-ExternalAgent “robots.txt-regels kan omzeilen.” Dus op basis van de verklaring van het bedrijf kunnen we niet ronduit stellen dat het bedrijf het omzeilt, maar het is redelijk om dat wel aan te nemen. We hebben het hier over Meta. Dit bedrijf heeft zijn deel van de aanvaringen met de wet over hoe het gebruikersgegevens verzamelt.

Ten tweede, een ding dat Business Insider opmerkte, is dat deze crawler eigenlijk twee doelen dient. Hij crawlt de sites en indexeert ze. Dat is behoorlijk vreemd, aangezien de meeste crawlers één taak uitvoeren. Hoe vreemd het ook klinkt, dit zou een tactiek kunnen zijn om sites bang te maken zodat ze de crawler van Meta binnenlaten.

Als u wilt dat een zoekmachine uw website naar voren haalt wanneer iemand een relevante zoekopdracht uitvoert, dan wilt u dat die zoekmachine uw site indexeert. Dus als u wilt dat uw site verschijnt wanneer iemand een zoekopdracht uitvoert op een Meta-platform, dan moet die uw site indexeren.

Ogenschijnlijk betekent het lanceren van een crawler die zowel uw site scrapt als indexeert dat, als u wilt dat het bedrijf uw site indexeert, u het ook data moet laten scrapen. Tenminste, zo lijkt het. Als dat waar is, dan is dat een nieuw dieptepunt voor Meta.

Wat Meta te zeggen heeft

Een woordvoerder van Meta nam contact op en sprak over de claims die tegen het bedrijf zijn gedaan. Ze zeiden dat het bedrijf meerdere crawlers gebruikt om “om het voor uitgevers gemakkelijker te maken hun voorkeuren aan te geven.”

De woordvoerder nam ook contact op met Business Insider via e-mail om te verklaren: “Net als andere bedrijven trainen wij onze generatieve AI-modellen op content die online openbaar beschikbaar is“, vervolgden ze”We erkennen dat sommige uitgevers en eigenaren van webdomeinen opties willen als het gaat om hun websites en generatieve AI.”

Ten slotte zei de woordvoerder dat het bedrijf meerdere crawlers heeft gelanceerd om te voorkomen dat “bundelen van alle use cases onder één agent, wat webuitgevers meer flexibiliteit biedt.

Dit doet ons afvragen waarom de Meta-ExternalAgent crawler zowel indexeert als scrapt. Hoe dan ook, als u zich zorgen maakt over deze nieuwe crawlers, heeft Meta wat informatie gegeven over hoe u ze kunt vermijden.

We hebben een nieuwe manier nodig om te voorkomen dat bedrijven gegevens schrapen

Dit brengt een behoorlijk groot probleem in de tech-industrie aan het licht. Veel site-eigenaren hoorden pas vorig jaar over Robots.txt toen we leerden hoe bedrijven gegevens verkregen. Dus ze schakelden het bestand in en sliepen die nacht goed, wetende dat hun site veilig was voor scraping. We begonnen echter verhalen te horen over hoe bedrijven het omzeilden. Is er dan niets heilig?

Het feit is dat we iets nieuws nodig hebben om crawlers weg te houden van de data op onze sites. Robots.txt is nuttig geweest, maar het is meer dan 20 jaar oud. We zouden geen vertrouwen moeten hebben in een methode die al bestond vóór de originele iPod. Bedrijven hebben er al een manier omheen gevonden. Het is op het punt dat het niet echt nuttig meer is. Als grote bedrijven als OpenAI het al hebben ontweken, dan dient het niet veel meer dan een placebo.

Er moet iets beters worden opgezet dat de crawlers blokkeert. En niet alleen dat, we hebben ook de hulp van de overheid nodig om bedrijven te dwingen het niet te omzeilen. Op dit punt, aangezien bedrijven het .TXT-bestand zomaar kunnen omzeilen, zitten grote bedrijven in principe op het eersysteem. Dat is een gedachte om ’s nachts wakker van te liggen.

Hopelijk zien we eerder dan later een nieuw systeem. Als het niet al te laat is.

Thijs Van der Does