De SynthID Text-tool van Google is eindelijk gelanceerd

Het wordt steeds moeilijker om te bepalen wat er op het internet door AI is gegenereerd, en dat geldt vooral voor door AI gegenereerde tekst. Het is voor AI veel gemakkelijker om tekst te vervalsen dan voor audio, afbeeldingen of video’s. Als zodanig lijkt het watermerken van genoemde inhoud een onmogelijke taak. Het lijkt er echter op dat Google een oplossing heeft in de vorm van de SynthID Text-tool.

Omdat AI zo overtuigend is, is het belangrijk om hulpmiddelen te hebben waarmee mensen kunnen identificeren of een onderzoekspaper door ChatGPT is uitgespuwd. Hoewel het slecht is om te frauderen met je studierapport, is het verre van het schadelijkste wat je kunt doen met door AI gegenereerde tekst. Een groot probleem is de verspreiding van verkeerde informatie en andere schadelijke inhoud.

Dit is waar Google SynthID-tekst binnenkomt

De bedrijven die ons de krachtigste AI-chatbots geven, proberen ons ook tools te geven waarmee we kunnen identificeren wanneer iets door die chatbots is gemaakt. OpenAI heeft tools ontwikkeld en getest om te helpen identificeren wanneer iets door ChatGPT is gemaakt, maar het bedrijf achtte het niet nodig om het vrij te geven.

Google daarentegen heeft ons gezegend met een watermerktool. Zoals de naam al doet vermoeden, is dit een hulpmiddel dat mensen kunnen gebruiken om te identificeren of een tekstgedeelte door AI is gegenereerd. SynthID Text is vanaf vandaag gratis beschikbaar voor ontwikkelaars en bedrijven. We weten niet zeker of Google een gebruikersgerichte tool gaat uitbrengen waarmee gewone mensen kunnen controleren of tekst door AI is gegenereerd.

Tekst watermerken?

Dit lijkt iets dat vrijwel onmogelijk zou moeten zijn om te doen. Het is gemakkelijker om door AI gegenereerde afbeeldingen van een watermerk te voorzien. Tekst is echter veel gemakkelijker te bewerken. Welke tekst een chatbot produceert, kun je eenvoudig bewerken of parafraseren. Google heeft een manier gevonden, maar deze is niet perfect.

Deze methode heeft te maken met wat er wordt genoemd Tokens. Als je al eens met AI-tools te maken hebt gehad, dan heb je deze term waarschijnlijk wel eens zien rondslingeren. Wanneer u een AI-tool gebruikt, voert u gegevens in en krijgt u gegevens als uitvoer. Als u bijvoorbeeld de opdracht ‘schrijf een verhaal over een konijn’ in een chatbot typt, krijgt u als reactie een verhaal van 100 woorden.

Welnu, de tekst in uw prompt is onderverdeeld in zogenaamde tokens. Dit zijn delen van woorden of hele woorden die u in een model invoert om te worden opgesplitst en geanalyseerd. Jouw antwoord bestaat ook uit tokens.

Volgens Google geeft een model, wanneer het tekst genereert, aan elk token een score op basis van hoe waarschijnlijk het is dat het in het antwoord zal worden gebruikt. Wat SynthID Text doet, is aanvullende informatie in elk token invoegen door “het moduleren van de waarschijnlijkheid dat tokens worden gegenereerd.Vervolgens vergelijkt Google de score uit de uitvoer van het oorspronkelijke model met de aangepaste score. Het uiteindelijke patroon van deze scores is dan “vergeleken met het verwachte scorepatroon voor tekst met en zonder watermerk, waardoor SynthID kan detecteren of een AI-tool de tekst heeft gegenereerd of dat deze uit andere bronnen kan komen,zegt Google.

Beperkingen

Het is veel om in te verwerken, maar het belangrijkste om op te merken is dat het een behoorlijk effectief hulpmiddel is. Het enige is dat dit geen waterdichte oplossing is. SynthID-tekst is niet zo nauwkeurig als het gaat om kortere stukjes tekst. Je hebt dus meer geluk als iemand een roman of een collegeverslag wil maken, maar je zult problemen ondervinden als het een reclametekst is.

Ook zal deze tool moeite hebben met tekst die uit een andere taal is vertaald of herschreven. Dit is logisch, omdat dit in principe alle tokens van de originele tekst zou veranderen.

Daarnaast zijn antwoorden op feitelijke vragen ook een probleem voor SynthID Text. Dit komt omdat het moeilijk is om de tokenscores aan te passen zonder de feitelijke feitelijke informatie in het antwoord te veranderen. Als je het hebt over de natuurlijke habitat van een bepaalde vogel, kun je weinig veranderen aan je reactie voordat je de feitelijke feiten begint te veranderen.

In een enigszins verrassende aankondiging verklaarde Google dat deze tool maanden geleden in Gemini was geïntegreerd, en de meesten van ons wisten het niet eens. Hopelijk zal deze tool het voortouw nemen voor andere tools die ons zullen helpen door AI gegenereerde inhoud te detecteren.