Aan de top van de pikorde van AI-modellen hebben we modellen als Gemini 1.5 Pro en GPT-4o met andere grote spelers zoals Llama 3, Claude 3 en anderen. Ergens in de mix hebben we het Grok-model van xAI. Het heeft de afgelopen maanden steeds meer functionaliteit gekregen en Elon Musk heeft zojuist een nieuwe mogelijkheid voor het model aangekondigd die uit een sciencefictionfilm lijkt te komen. Grok kan nu afbeeldingen begrijpen en zelfs grappen uitleggen.
Grok zit in de problemen sinds het de mogelijkheid kreeg om afbeeldingen te genereren. Uiteraard ontbrak het aan enige beveiliging om te voorkomen dat mensen problematisch materiaal zouden genereren. Hoe het ook zij, het is in ontwikkeling. Als je deze modus wilt gebruiken, moet je een X Premium+-abonnee zijn. Dit is het duurste betalingsniveau dat het bedrijf aanbiedt. Het kost $ 16/maand ($ 22/maand als je je aanmeldt via de app).
Grok kan nu beelden begrijpen
Als een AI-model ons naar het AGI-tijdperk (Artificial General Intelligence) wil brengen, moet het multimodaal zijn. Dit betekent dat het de mogelijkheid heeft om meerdere vormen van media te begrijpen en te genereren. Grok kreeg de mogelijkheid om beelden te genereren, maar het begrijpen ervan is een ander verhaal.
Elon Musk heeft op X gepost over de nieuwe vaardigheden van Grok. In het voorbeeld laat hij zien dat het een uitleg kan geven van een afbeelding die ernaar is geüpload. Voor zijn voorbeeld liet hij Grok een meme uitleggen. De meme toonde een paar soldaten die soldaten spotten die deden alsof ze dood waren (die toevallig ook natuurkundigen zijn).
Grok geeft in zes punten uitleg van wat er in het beeld gebeurt en eindigt met een slotverklaring. Dus, hoe nauwkeurig was het? Laten we zeggen dat Grok binnenkort niet zal spreken op comedyworkshops. Het model kon identificeren wat er ter plaatse gebeurde, zoals de soldaten, de heuvel en de mensen op de grond.
Er staat echter “De humor komt van de clou in het tweede paneel, waar een bewaker zegt: ‘Isaac Newton heeft de zwaartekracht uitgevonden’, wat impliceert dat de reden dat de natuurkundigen niet bewegen (en dus dood lijken) te wijten is aan de zwaartekracht, die Newton bekend staat om zijn wiskundige beschrijving. , niet uitvinden.”
Er staat ook dat de humor voortkomt uit het feit dat natuurkundigen “zo toegewijd zouden zijn aan hun werk dat ze zouden gaan liggen om de zwaartekracht te bestuderen of te ‘ontdekken’,“. Het heeft dus duidelijk de betekenis van de grap verkeerd begrepen.
Betekent dit dat Grok slecht is?
Nee, het betekent dat AI zelf enkele verbeteringen moet aanbrengen. We hebben het over het trainen van een model om het te begrijpen humoreen van de meest menselijke creaties ooit. Niet alleen dat, maar we gaven Gemini hetzelfde beeld om het te begrijpen, en het klopte ook niet.
De modellen begrijpen de individuele elementen in het beeld, en ze hebben een oppervlakkig begrip van komedie; ook al is het zeer analytisch. Ze begrijpen echter niet welk bot de kunstenaar moet kiezen bij wetenschappers die anaal zijn in het corrigeren van mensen op de fijnere details van spraak. We weten niet zeker hoe bedrijven AI-modellen hierover kunnen leren.