Pour générer de la vidéo à partir de texte, Google DeepMind présente son intelligence artificielle Phenaki, assez proche de ce que propose Nvidia avec Video LDM.
Auteur / Autrice :
Phenaki, une intelligence artificielle capable de créer des vidéos à partir de texte
Google Deepind sera présent au ICML 2023, la Conférence International sur le Machine Learning, qui se tient du 23 au 29 juillet à Honolulu (Hawaï). Lors de cette conférence, l’entité issue de la fusion de DeepMind et de la team Brain de Google Research (voir notre article) développera son dernier-né en matière d’intelligence artificielle générative, le projet Phenaki.
Un nom qui est directement issu du célèbre Phénakistiscope, inventé par Joseph Plateau en 1832. Une version Google DeepMind du Phénakistiscope est d’ailleurs utilisée pour l’image en couverture, en haut de cet article.
Phenaki est un modèle capable de générer des vidéos “réalistes” à partir de séquences de textes, qui a déjà eu plusieurs introductions confidentielles depuis environ un an maintenant.
Dans une nouvelle publication dédiée à présenter Phenaki, les auteurs listent plusieurs problèmes majeurs “particulièrement difficiles” que ce type de technologie doit résoudre avant de proposer des résultats intéressants :
- Le coût très élevé en ressources informatiques nécessaires (puissance, énergies, processeurs…)
- Les longueurs variables des vidéos
- La disponibilité limitée de données texte-vidéo de haute qualité.
Mais, pour résoudre les deux premiers problèmes, Phenaki utilise deux composants principaux :
- Un modèle encodeur-décodeur qui compresse les vidéos en “tokens”, grâce à un “tokenizer” pouvant traiter des vidéos de longueurs variables grâce à son utilisation d’une attention causale dans le temps. Un fonctionnement assez proche de celui qu’utilise Nvidia pour son propre outil de génération de video “Video LDM” (voir notre article dédié).
- Un modèle de Transformer qui traduit les embeddings textuels en “tokens” vidéo : “nous utilisons un transformer bidirectionnel masqué conditionné aux tokens textuels pré-calculés pour générer des tokens vidéo à partir du texte, qui sont ensuite dé-tokenisés pour créer la vidéo réelle”.
Enfin, pour le problème des données utilisables en matière de vidéo : Phenaki s’appuie sur “un grand corpus de paires image-texte et un nombre plus réduit d’exemples vidéo-texte”. Et cet ensemble associé “peut entraîner une généralisation au-delà de ce qui est disponible uniquement dans les ensembles de données vidéo”.
Des premiers résultats intéressants, qui montrent tout de même une technologie encore loin de la maturité
Phenaki : exemples de vidéos courtes créées par l’IA
Voici plusieurs exemples de vidéos courtes générées par l’intelligence artificielle Phenaki de Google DeepMind, et les invites de texte utilisées pour les créer :
- Invite : A photorealistic teddy bear is swimming in the ocean at San Francisco – The teddy bear goes under water – The teddy bear keeps swimming under the water with colorful fishes
A panda bear is swimming under water

- Invite : A teddy bear diving in the ocean – A teddy bear emerges from the water – A teddy bear walks on the beach – Camera zooms out to the teddy bear in the campfire by the beach

- Invite : Side view of an astronaut is walking through a puddle on mars – The astronaut is dancing on mars – The astronaut walks his dog on mars – The astronaut and his dog watch firework

Trois autres exemples, autour du chat :
- Invite : Camera zooms quickly into the eye of the cat

- Invite : A white cat touches the camera with the paw

- Invite : A white cat yawns loudly

Phenaki : exemples de vidéos longues créées par l’IA
Phenaki propose aussi de créer des vidéos long formats, comme cette vidéo de presque deux minutes générées par l’intelligence artificielle à partir du prompt suivant :
“Lots of traffic in futuristic city. An alien spaceship arrives to the futuristic city. The camera gets inside the alien spaceship. The camera moves forward until showing an astronaut in the blue room. The astronaut is typing in the keyboard. The camera moves away from the astronaut. The astronaut leaves the keyboard and walks to the left. The astronaut leaves the keyboard and walks away. The camera moves beyond the astronaut and looks at the screen. The screen behind the astronaut displays fish swimming in the sea. Crash zoom into the blue fish. We follow the blue fish as it swims in the dark ocean. The camera points up to the sky through the water. The ocean and the coastline of a futuristic city. Crash zoom towards a futuristic skyscraper. The camera zooms into one of the many windows. We are in an office room with empty desks. A lion runs on top of the office desks. The camera zooms into the lion’s face, inside the office. Zoom out to the lion wearing a dark suit in an office room. The lion wearing looks at the camera and smiles. The camera zooms out slowly to the skyscraper exterior. Timelapse of sunset in the modern city.”
Une autre vidéo plus impressionnante propose le parcours d’un motard, qui s’enfuit ensuite dans une forêt, avant d’arriver vers des maisons, où, en passant de jardins en jardins, il rencontre notamment un chat, un chien et même un éléphant, et un robot. Mais la pérégrination ne s’arrête pas là…!
Des premiers essais intéressants, mais qui montrent très clairement les limites de cette technologie très loin d’être aboutie. En terme de “pure” qualité de vidéo générée, la technologie de Nvidia semble d’ailleurs plus avancée. Voici un exemple de ce que permet Video LDM :
Un point intéressant à relever aussi est que regarder les longues vidéos que Phenaki produit ressemble à regarder un rêve, un rêve troublant. Un rêve où les scènes s’enchainent avec un naturel qui semble logique pour la personne qui les vit, mais ô combien étrange pour celui qui regarde l’ensemble d’un oeil extérieur.
Pour aller plus loin et en savoir plus sur Phenaki :
- La publication : https://openreview.net/forum?id=vOEXS39nOF
- Le site officielle : https://phenaki.video/
- L’article de blog Google Research