OpenAI plaagt zijn krachtigste redeneermodel genaamd o3

OpenAI heeft zojuist zijn 12-daagse evenement genaamd “Shipmas” afgerond, waar het een aantal geweldige aankondigingen deed. Als goed afscheid heeft OpenAI ons kennis laten maken met o3, het aankomende redeneermodel, en het lijkt erop dat het buitengewoon slim zal zijn.

Tijdens Shipmas kondigde OpenAI nog een aantal geweldige AI-goodies aan. Om te beginnen introduceerde het zijn ChatGPT Pro-abonnement van $ 200 per maand. Dit geeft gebruikers toegang tot de krachtigste versie van o1 en andere geweldige functies. Ook bracht het bedrijf Sora uit, zijn AI-videogenerator die het internet vrijwel kapot maakte toen het bedrijf het voor het eerst liet zien. Je kunt het gebruiken als je een ChatGPT Plus-lid bent.

OpenAI geeft ons een voorproefje van o3, het nieuwste redeneermodel

Wat is er met o2 gebeurd? Nou ja, het bevindt zich in de farm-up-staat, samen met Windows 9, de OnePlus 4 en de iPhone 9. OpenAI besloot over te gaan naar o3 omdat er een Brits telecommunicatiebedrijf is genaamd O2. Dit was dus een manier om eventuele juridische problemen op de weg te voorkomen.

o3 zal een redeneermodel zijn, vergelijkbaar met een regulier model. Het belangrijkste verschil is echter dat, in plaats van u in één keer het antwoord te geven, een redeneermodel het proces feitelijk zal afbreken en u alle stappen zal laten zien die nodig zijn om tot de conclusie te komen. Google’s Gemini 2.0 Flash Thinking is een goed voorbeeld van een redeneermodel. Als je dus nader wilt onderzoeken hoe een model tot zijn antwoord is gekomen, dan zul je redeneermodellen willen gebruiken.

Aangezien dit het magnum opus van OpenAI zal zijn, weet je dat het een aantal waanzinnige AI-slimme features zal bevatten. Het bedrijf heeft enkele statistieken vrijgegeven over hoe het presteert, en hieruit blijkt dat het al ver voorbij het punt is om AI te maken die slimmer is dan een mens (nou ja, meestal).

Het bedrijf heeft het model bijvoorbeeld aan de SWE-Bench Verified-coderingstests onderworpen en het versloeg o1 met 22,8%. Vervolgens heeft OpenAI o3 door de GPQA (Google-Proof Q&A Benchmark) Diamond Science-benchmark gehaald en scoorde 87,7%. OpenAI heeft o3 ook door het AIME (American Invitiational Mathematics Examination) gehaald en miste slechts één van de 15 vragen. De AIME is een extreem zware wiskundewedstrijd.

Het lijkt erop dat OpenAI zichzelf deze keer echt heeft overtroffen. We weten niet wanneer het bedrijf dit model aan het publiek zal vrijgeven. Reken er alleen niet snel op, want o1 is nog vrij nieuw.