Meta's nieuwe model kan afbeeldingen begrijpen

OpenAI heeft GPT, Google heeft Gemini en xAI heeft Grok. Alle top AI-bedrijven in de branche hebben hun vlaggenschipmodellen, en die van Meta is Llama. Woensdag kondigde Meta zijn nieuwste AI-model aan, genaamd Llama 3.2, en deze update geeft het model een paar ogen.

Meta heeft gisteren tijdens haar evenement een aantal behoorlijk opwindende dingen aangekondigd, zoals de nieuwe Orion-bril. Fans van het bedrijf zullen zeker enthousiast zijn om te zien hoe het bedrijf AI en AR (augmented reality) op inventieve manieren wil combineren. We hebben ook de nieuwe Meta Quest 3s bekeken, een goedkopere VR-headset van het bedrijf.

Meta heeft het nieuwe Llama 3.2-model aangekondigd en kan afbeeldingen begrijpen

Een van de grootste stappen die een AI-bedrijf moet zetten, is het multimodaal maken van zijn modellen. Dit betekent dat het verschillende soorten media kan begrijpen en creëren. Een model dat zowel tekst als video’s kan verwerken, wordt dus als multimodaal beschouwd.

Het vermogen om afbeeldingen te begrijpen geeft een model een aantal belangrijke voordelen. Om te beginnen kan het model een live videofeed zien en begrijpen wat het ziet. Dit is iets dat de AR-ervaring enorm kan verbeteren. Zoals The Verge aangeeft, zullen ontwikkelaars het model kunnen gebruiken bij het ontwikkelen van AR-apps die realtime inzicht in de omgeving vereisen.

Er zijn verschillende modellen geassocieerd met Llama 3.2, en ze zullen verschillende toepassingen hebben. Twee daarvan zijn visiemodellen, waarvan er één 11 miljard parameters heeft en de andere 90 miljard. Daarnaast zijn er twee modellen met alleen tekst, één met 1 miljard parameters en één met 3 miljard. Net als Gemini zijn de kleinere Llama-modellen ontworpen om in telefoons te worden geïmplementeerd.

Dit betekent dat Gemini mogelijk enige concurrentie zal krijgen als deze modellen klappen gaan uitdelen. Alleen de tijd zal leren of het model van Meta zal passen bij wat Google al heeft vastgesteld.

Meta’s nieuwe model kan afbeeldingen begrijpen

Meta heeft het nieuwe Llama 3.2-model aangekondigd en kan afbeeldingen begrijpen