Faire générer des videos par l’intelligence artificielle va être largement simplifié par Video LDM de Nvidia AI.
Auteur / Autrice :
La CVPR 2023 ne se tiendra à Vancouver (Canada) qu’à la fin du mois de juin 2023, du 18 au 22, mais ce qui va s’y passer va d’ores et déjà faire les gros titres de l’actualité “Intelligence artificielle” dans le monde.
L’équipe de recherche du laboratoire “NVIDIA AI” de Toronto vient de présenter dans un très long article ses recherches sur la synthèse vidéo haute résolution (la création de vidéo via l’IA), utilisant les Latent Diffusion Models ou LDM. Et l’une des applications est un modèle de synthèse Text-to-Video de très haut niveau, basé sur le modèle “Stable Diffusion” open source de Stability AI.
Les “Latent Diffusion Models” vidéo de Nvidia
Le constat en amont est simple : générer des vidéos haute résolution est une tâche particulièrement gourmande en ressources. Alors l’équipe de NVIDIA AI a développé des “Latent Diffusion Models”.
Ces LDM permettent alors de produire de la synthèse d’images de très bonnes qualités, tout en évitant les demandes de calcul excessives, en entraînant un “diffusion model” dans un espace latent (une composante basique du Machine Learning) compressé de dimension inférieure :
Nous pré-entraînons d’abord un LDM sur les images uniquement. Puis, on transforme le générateur d’images en générateur vidéo en introduisant une dimension temporelle dans le “latent space diffusion model”, et en appliquant un fine-tune spécifique sur des “séquences d’images codées” (des vidéos).
Puis, il faut traiter l’évolution temporelle :
Nos VideoLDM mappent les vidéos dans un espace latent compressé et modélisent des séquences de variables latentes correspondant aux images vidéo. Nous initialisons les modèles à partir des LDM d’images et insérons des couches temporelles dans les réseaux de neurones de débruitage des LDM pour modéliser temporellement les séquences d’images vidéo codées.
Le résultat, c’est donc un modèle à la fois entrainé et performant, capable de générer des “vrais” vidéos !
“Nous présentons des “Video Latent Diffusion Models” pour une génération de vidéo haute résolution efficace sur le plan informatique.”
L’intelligence artificielle text-video arrive à grands pas
Le résultat de VideoLDM, c’est une intelligence artificielle capable de générer des vidéos avec des invites de texte, de manière bluffante ! Les vidéos générées ont une résolution généreuse de 1280 x 2048 pixels, mais sont limités dans le temps, avec seulement 113 images pour un total de 4,9 secondes.
Voici plusieurs exemples de ce que permet Video LDM :
- Avec le prompt “A koala bear playing piano in the forest” :
- Avec le prompt “Icelandic horses near lake” :
- Avec le prompt : “An astronauts feeding ducks on a sunny afternoon, reflection from the water” :
L’équipe de Nvidia met à disposition de très nombreux autres exemples incroyables sur une page dédiée, accessible via ce lien.
Un autre usage pensé par Nvidia AI est la génération de vidéos de scènes de conduite. Si ces vidéos ont une résolution inférieure de 512 x 1024, elles sont en revanche développées pour pouvoir être beaucoup plus longues : “Ici, nous entraînons en outre des modèles de prédiction pour permettre la génération de vidéos longues, ce qui nous permet de générer des vidéos temporellement cohérentes de plusieurs minutes.”
Voici deux exemples :
Des scènes de conduite générées par une intelligence artificielle qui sont particulièrement photo-réalistes.
On peut imaginer à moyen terme des applications vertigineuses de Video LDM et d’IA équivalentes dans les domaines du cinéma, du jeu video, mais aussi dans la production de deep fake.
Pour aller plus loin :
- La publication officielle : https://arxiv.org/abs/2304.08818
- L’article dédié sur le site de Nvidia : https://research.nvidia.com/labs/toronto-ai/VideoLDM/