Suivant les pas de Meta et d’Apple, Google vient de dévoiler "Imagen Video", qui comme son nom l’indique permet de produire des vidéos en haute définition en se basant sur une simple description de scène. Imagen video peut produire des animations en 2D ou 3D, et à l’instar de la version « image fixe » peut aussi respecter des styles graphiques bien définis (réaliste, cartoon, etc.).
Pour la firme de Mountain View, Imagen Video est un « système de génération de vidéos conditionnées par le texte, basé sur une cascade de modèles de diffusion vidéo ». Les chercheurs de l’équipe Brain expliquent ainsi qu’ « à partir d'une invite textuelle, Imagen Video génère des vidéos haute définition en utilisant un modèle de génération vidéo de base et une séquence de modèles de super-résolution vidéo spatiaux et temporels entrelacés ». Le constat est le suivant : « Imagen Video est non seulement capable de générer des vidéos de haute-fidélité, mais il possède également un haut degré de contrôlabilité et de connaissance du monde, y compris la capacité de générer diverses vidéos et animations textuelles dans différents styles artistiques et avec une compréhension des objets en 3D ».
Pour l’instant, Imagen Video peut produire des vidéos d’une durée de 5,3 secondes en 1.280 x 768 et en 24 images seconde. Une première séquence « de base » est composée avec 16 images de 24 x 48 pixels, le tout animé en 3 frame per second (fps) puis 6 autres séquences sont générées pour affiner l’animation finale. La génération d’animations peut s’appuyer sur des descriptions textuelles complexes de type « Voler à travers une intense bataille entre des navires pirates sur un océan orageux. »
Google ne prévoit pas de laisser Imagen Video en libre accès pour le moment, pas tant que l’IA continuera de produire un pourcentage trop important de contenus jugés « problématiques ».
