Stabiele videodiffusie verandert elk beeld in een animatie met AI

Een nieuw kunstmatige intelligentie (AI)-model van Stability.ai kan van elk stilstaand beeld een animatie maken, zo werd eerder deze maand in een release aangekondigd. Het is het nieuwste AI-model gemaakt door Stability.ai, een open-source AI-bedrijf dat in 2019 is gestart. Het nieuwe model heet Stable Video Diffusion en is gebaseerd op het Stable Diffusion-beeldmodel van Stability.ai. De volledige code voor Stable Video Diffusion is beschikbaar in de Github-repository van Stability.ai en gebruikers kunnen het beeld-naar-video-model nu testen in een onderzoeksvoorbeeld.

Stabiele videodiffusie genereert een animatie nadat deze is geconditioneerd op basis van een geüploade afbeelding. Kort gezegd betekent dit dat het AI-model de inhoud van een stilstaand beeld gebruikt om een video te animeren. Stability.ai heeft het model getraind om 25 frames te maken op basis van een stilstaand beeld, die samen een korte video-animatie vormen. Gebruikers kunnen in plaats daarvan echter ook video’s met 14 frames maken. De animatie kan worden gegenereerd met een resolutie van maximaal 576×1024, maar hiervoor moet de geüploade afbeelding een gelijke of grotere grootte hebben.

Het bedrijf is van mening dat zijn Stable Video Diffusion-model beter door gebruikers wordt ontvangen dan concurrerende beeld-naar-video AI-modellen. Dat is gebaseerd op een onderzoekspaper dat werd gepubliceerd naast de release van Stable Video Diffusion. Het is echter belangrijk op te merken dat dit geen peer-reviewed onderzoek was en dus niet als volledig onbevooroordeeld kan worden beschouwd. In het gebruikersonderzoek werd Stable Video Diffusion vergeleken met het GEN-2-model van Runway en het model van Pika Labs.

Mogelijke beperkingen van het Stability.ai-videomodel

Het bedrijf noemt echter wel enkele beperkingen van het Stable Video Diffusion-model. Ten eerste kunnen video’s gemaakt van stilstaande beelden slechts ongeveer 4 seconden duren. Hoewel dit nuttig kan zijn voor inhoud met een lus, zou het niet geweldig zijn voor enige vorm van originele animatie. Afgezien daarvan zegt Stability.ai dat het model er soms niet in slaagt een animatie te maken en in plaats daarvan een stilstaand beeld weergeeft. Bovendien kan de gegenereerde beweging langzaam of onnatuurlijk zijn tijdens AI-beeldanimatie.

Bovendien heeft dit Stable Video Diffusion-model, net als veel AI-modellen, moeite met gezichten en tekst. Tekst in afbeeldingen kan onleesbaar worden wanneer deze naar video wordt vertaald, en de gezichten van mensen kunnen vervormd zijn. Het model is momenteel alleen bedoeld voor onderzoeksdoeleinden, maar iedereen die het wil uitproberen, kan aan de slag in de GitHub-repository van het bedrijf. Je hebt echter wel enige ervaring nodig met het downloaden en uitvoeren van code.

Deze nieuwste release zet het snelle tempo van de AI-ontwikkeling voort. Gisteren onthulde Pika Labs een tekst-naar-video AI-generator genaamd Pika 1.0. We zullen waarschijnlijk blijven zien dat video- en beeldgeneratoren geavanceerder worden naarmate het onderzoek voortduurt.