Google introduceert een ambitieus nieuw AI-model dat is ontworpen om op een opvallend menselijke manier met internet te communiceren. Deze gespecialiseerde AI, genaamd Gemini 2.5 Computer Use, kan door webbrowsers navigeren, op knoppen klikken, formulieren invullen en zelfs door pagina’s scrollen – allemaal op basis van een eenvoudige tekstprompt. Het is een belangrijke stap in de richting van het creëren van AI-agenten die complexe digitale taken autonoom kunnen uitvoeren. Het model kan verder gaan dan eenvoudige chatbotreacties en actief omgaan met gebruikersinterfaces.
Dit AI-model is gebouwd op de mogelijkheden van Gemini 2.5 Pro en onderscheidt zich door te werken binnen een virtuele browseromgeving. In tegenstelling tot sommige concurrerende AI-agents die toegang hebben tot een volledig desktopbesturingssysteem, richt het model van Google zich specifiek op web- en mobiele interfaces. Met deze aanpak kan het de dagelijkse digitale klusjes aanpakken waarvoor voorheen menselijke tussenkomst of complexe API-integraties nodig waren. Denk aan een AI die een gedetailleerd online formulier invult, door een rommelige website navigeert of items aan een winkelwagentje toevoegt op basis van een lijst, allemaal met minimale rompslomp.
Gemini 2.5 Computermodel is de nieuwe AI-agent van Google
De kern van Gemini 2.5 Computergebruik ligt in een iteratieve feedbacklus. Wanneer een gebruiker de AI een taak geeft, ontvangt het model eerst het verzoek, een screenshot van het huidige scherm en een geschiedenis van eerdere acties. Vervolgens verwerkt het deze informatie en stelt het een specifieke UI-actie voor, zoals klikken op een link, tekst in een veld typen of naar beneden scrollen. Code aan de clientzijde voert de actie uit, het scherm wordt bijgewerkt en een nieuw screenshot wordt teruggestuurd naar de AI. Deze lus gaat door totdat de oorspronkelijke taak is voltooid.
Google heeft dit model voornamelijk geoptimaliseerd voor webbrowsers. Het is echter ook veelbelovend voor controle over mobiele apps. Interne tests bij Google gebruiken al versies van dit model voor taken zoals UI-testen, waardoor de softwareontwikkeling wordt versneld.
Prestaties en veiligheid centraal
Google beweert dat het Gemini 2.5 Computer Use-model “beter presteert dan toonaangevende alternatieven op meerdere web- en mobiele benchmarks” met een lagere latentie. Demonstraties laten zien dat de AI op competente wijze taken uitvoert zoals het spelen van het spel 2048 of het surfen op websites. Interessant genoeg laten korte tests zelfs zien dat het Google Search CAPTCHA’s oplost, een belangrijke hindernis voor niet-menselijke gebruikers.
Google legt echter ook de nadruk op veiligheid. Het bedrijf is zich bewust van de unieke risico’s die verbonden zijn aan AI-agenten die computers besturen. Slechte actoren kunnen mogelijk misbruik maken, of er kan zelfs onverwacht gedrag van de kant van de AI optreden. Met dit in gedachten heeft het bedrijf veiligheidsvoorzieningen rechtstreeks in het model ingebouwd. Ontwikkelaars krijgen ook tools om te voorkomen dat de AI risicovolle acties uitvoert, zoals het in gevaar brengen van de systeemveiligheid of het omzeilen van CAPTCHA’s zonder expliciete toestemming van de gebruiker.
Momenteel is Gemini 2.5 Computer Use beschikbaar voor ontwikkelaars via de Gemini API in Google AI Studio en Vertex AI. Het is nog niet direct toegankelijk voor consumenten. Dat gezegd hebbende, maakt deze technologie de weg vrij voor een toekomst waarin AI meer van onze routinematige digitale interacties afhandelt.