Vlaggenschip AI-kracht tegen budgetprijzen

De AI-industrie beweegt zich in een tempo dat uitputtend kan aanvoelen, maar de nieuwste stap van Anthropic is moeilijk te negeren. Slechts twaalf dagen na de lancering van hun krachtpatsermodel, Claude Opus 4.6, heeft het bedrijf Claude Sonnet 4.6 uitgebracht. Dit nieuwe middenklassemodel is ontworpen om iets opmerkelijks te doen: intelligentie op ‘Opus-niveau’ leveren tegen een fractie van de kosten.

Claude Sonnet 4.6 levert prestaties op topniveau

In de wereld van AI is er altijd sprake geweest van een afweging. Als je een model wilde dat complex kon redeneren en foutloos kon coderen, moest je een premie betalen voor modellen van de ‘Opus-klasse’. Als je iets goedkoper wilde, moest je genoegen nemen met minder ‘hersenkracht’.

Claude Sonnet 4.6 is ontworpen om die afweging effectief te ondermijnen. Anthropic heeft de prijs op $3 per miljoen inputtokens gehouden – hetzelfde als de vorige versie – ondanks de enorme sprong in mogelijkheden. Om dat in perspectief te plaatsen: het runnen van een krachtige AI-agent is nu ongeveer vijf keer goedkoper dan een paar weken geleden. Voor bedrijven die miljoenen geautomatiseerde taken per dag uitvoeren, is dit een groot probleem.

Beter in ‘mens zijn’ (op een computer)

Een van de meest indrukwekkende sprongen in deze versie is ‘computergebruik’. Dit is het vermogen van een AI om naar een scherm te kijken, een cursor te verplaatsen en in apps te typen, net zoals iemand dat zou doen. Toen Anthropic dit eind 2024 voor het eerst liet zien, was het experimenteel en een beetje onhandig.

Sonnet 4.6 heeft volgens het bedrijf een bijna menselijk niveau bereikt. In benchmarks die zijn ontworpen om te testen hoe goed AI door web- en desktop-apps kan navigeren, scoorde het 72,5%, een mooie sprong ten opzichte van de 61,4% van zijn voorganger. Het is nu zo goed in het gebruik van een computer dat het praktisch overeenkomt met het veel duurdere vlaggenschip Opus 4.6. Dit is een game-changer voor het automatiseren van “verouderde” taken: die oude databases en verzekeringsportals die niet over moderne API’s beschikken.

De nieuwe codekoning?

Voor ontwikkelaars is Claude al een favoriete technische tool geworden, en Sonnet 4.6 versterkt die reputatie nog eens. Bij tests in de echte wereld gaven ontwikkelaars 70% van de tijd de voorkeur aan de resultaten boven eerdere versies. Het is naar verluidt minder gevoelig voor “luiheid” en volgt complexe, uit meerdere stappen bestaande instructies met een veel hogere consistentie.

Naast het schrijven van code liet het model zien dat het ‘op de lange termijn kan denken’. In een gesimuleerde zakelijke competitie genaamd ‘Vending-Bench’ beheerde de AI een bedrijf gedurende een volledig gesimuleerd jaar. Het ontwikkelde een strategie om in de eerste tien maanden zwaar te investeren in het opbouwen van capaciteit, alvorens te draaien om de winst te maximaliseren. Het beëindigde de simulatie met meer dan het dubbele van het saldo van eerdere modellen, wat bewijst dat het maanden kan plannen, niet slechts minuten.

Concurrenten als Google en OpenAI laten onvoorspelbare releasedata en vertragingen zien. Ondertussen houdt Anthropic vast aan een gestage updatecyclus van vier maanden. Dankzij deze consistentie kunnen CTO’s en ontwikkelaars hun roadmaps plannen met het vertrouwen dat een beter, efficiënter model altijd om de hoek ligt. Anthropic kan dit gebruiken als concurrentievoordeel voor de zakelijke markt.

Claude Sonnet 4.6 is nu de standaard voor iedereen, inclusief degenen op de gratis laag.