Dus lanceerde Google zojuist zijn multimodale moloch genaamd Gemini. Het is het nieuwe, extreem krachtige AI-model van het bedrijf, en het is bedoeld om het op te nemen tegen modellen als GPT-4. Als onderdeel van alle lanceringsfestiviteiten zagen we een praktische video waarin de mogelijkheden van Gemini werden getoond. Welnu, Google gaf toe dat de hands-on video van Gemini werd opgevoerd.
Dus om je bij te praten: toen Google Gemini lanceerde, werd er een praktische video getoond waarin de persoon enkele van de vaardigheden van Gemini liet zien. Het leek erop dat Gemini realtime audio- en videogegevens verwerkte. Wanneer de persoon een object in de camera zou stoppen, zou hij Gemini-vragen stellen over wat hij “ziet” en antwoorden geven. We hoorden een door AI gegenereerde stem reageren.
Het is een geweldige showcase van de capaciteiten van Gemini… of dat zou het zijn als het ECHT was.
Google geeft toe dat de hands-on video van Gemini in scène is gezet
Een opiniestuk van Bloomberg heeft dit stukje thee gemorst. Er staat dat Google heeft onthuld dat de video niet 100% echt was. De realtime vocale interacties tussen de presentator en Gemini waren er niet. Dat kwam allemaal door de magie van videobewerking. Bovendien werden de interacties in de post versneld, waardoor het sneller leek dan het in werkelijkheid is.
Maar hoewel de video niet 100% echt was, kunnen we niet zeggen dat deze 100% nep was. Het is een showcase van de capaciteiten van Gemini, en we zien nog steeds zijn capaciteiten. Googlen gebruikte “stilstaande beeldframes uit de beelden en prompts via tekst.” Dus in plaats van een informeel gesprek met Gemini te hebben, voerde het bedrijf stilstaande beelden in het model in en typte wat het wilde dat Gemini zou produceren.
In wezen zien we nog steeds de mogelijkheden van Gemini; we zijn nog steeds aan het kijken wat het kan opleveren gezien de input. Google gebruikte Hollywood-magie om het krachtiger te laten lijken dan het is. Wat de snelheid van de reacties betreft, vermeldde Google in de beschrijving dat de reacties vanwege de beknoptheid waren versneld.
Heeft het bedrijf ongelijk als het dit doet? Wie weet? Dat is een debat voor de commentaarsectie van YouTube.
De video is in scène gezet en dat is een beetje een opluchting
Ongeacht of de video nep is, hij is nog steeds veel krachtiger dan Bard. Het model is slimmer met meer tokens en parameters, bla bla bla. Wat er ook gebeurt, bedrijven zullen nog steeds over de middelen beschikken om de productie en efficiëntie te versnellen. Er zijn ook verschillende manieren om toegang te krijgen tot Gemini.
De video werd echter behoorlijk eng voor alle makers die keken. We zagen Gemini letterlijk binnen enkele seconden een cool tropisch nummer maken, iets waar een componist veel langer over zou doen. We zagen ook dat het binnen enkele seconden afbeeldingen maakte van garen. Sinds DALL-E eindelijk goed werd en sinds ChatGPT op de markt kwam, staan menselijke makers op het punt verouderd te zijn. De situatie wordt er niet beter op, en de praktische video liet het echt lijken alsof Google eindelijk de laatste nagel aan de kist voor makers had geslagen.
Het feit dat het in scène is gezet, laat echter zien dat de technologie er nog niet helemaal is. Creators hebben nog even de tijd. Dat is alles wat we op dit moment kunnen vragen.