Loin d’être une révolution technique, Movie Gen de Meta est pour autant une IA vidéo impressionnante : voici tout ce qu’il faut savoir.
Auteur / Autrice :
C’est une nouvelle période majeure pour les équipes IA du groupe Meta. Après avoir dévoilé récemment Llama 3.2 (voir notre dossier), le groupe de Mark Zuckerberg dévoilait hier Movie Gen, sa nouvelle intelligence artificielle générative destinée à créer des vidéos.
Dans le post de blog présentent Movie Gen, le groupe se montre très enthousiaste : « Movie Gen établit une nouvelle norme pour le contenu immersif de l’IA. »
Comme d’autres outils bien connus du secteur (Runway Gen2/3 ou Pika pour n’en citer que deux), Movie Gen permet d’utiliser des prompts de texte pour produire des vidéos, mais aussi des sons personnalisés. L’outil propose aussi d’éditer des vidéos existantes, ou de transformer « votre image personnelle en une vidéo unique », du côté des fonctionnalités (relativement) originales.
Tout ce qu’il faut savoir sur Movie Gen
Movie Gen permet quatre grands usages principaux interconnectés :
Créer des vidéos avec des invites texte
Si créer des vidéos IA avec des invites texte n’est pas une nouveauté au sens strict, on peut dire que les produits sont loin, très loin, d’être aboutis pour le moment. Et l’une des limitations principales n’est pas tant la qualité que la durée : les éditeurs proposent rarement de créer des séquences de plus de quelques secondes (3 en général).
En février, OpenAI dévoilait SORA, et promettait des vidéos bien plus longues, des plans sur-mesure pouvant durer jusqu’à plusieurs minutes. Depuis, l’IA vidéo de Sam Altman n’est jamais sortie, et il se dit que le produit a été totalement refondu. Les sorties hasardeuses de l’ancienne CTO Mira Murati (partie il y a quelques jours) n’y sont certainement pas pour rien : OpenAI pourrait avoir abusé de millions de vidéos pour former son IA sans aucun droit.
Avec Movie Gen, Meta dévoile donc une nouvelle option pour créer des vidéos IA longues. De plus, au-delà du seul aspect durée, les vidéos générées seraient « haute définition » selon Meta AI, et pourraient être dans différents formats d’image (carré 1:1, paysage 16:9, portrait 9:16, etc) : « une première dans le secteur » selon Meta.

Modifier des vidéos
Modifier des vidéos est une autre fonctionnalité clef des IA génératives du secteur : à quoi bon créer des vidéos avec l’IA si le rendu finale est statique ? On privilégiera alors des logiciels plus polyvalents pour créer des choses plus personnalisées, comme c’est fait depuis des décennies.
Avec Movie Gen, Meta promet que l’on pourra modifier ses vidéos à la demande, toujours avec des prompts : changer le décor dans lequel court un jogger (montagne > plage), changer les vêtements d’un enfant tout en gardant la scène, changer le style de la vidéo (réaliste > dessin animé), etc…
Produire des vidéos personnalisées
Une autre fonction de Movie Gen vient concurrencer un autre acteur majeur du marché : HeyGen. Movie Gen de Meta permet d’utiliser une photo de soi, ou de quelqu’un, pour créer des vidéos la mettant en scène :
« Téléchargez une image de vous-même et transformez-la en une vidéo personnalisée. Le modèle de pointe de Movie Gen vous permet de créer des vidéos personnalisées qui préservent l’identité et le mouvement humains. »
Une offre que Meta veut proposer aux « créateurs de contenu », directement ciblés dans son second article de présentation de Movie Gen nommé (sans nuance) : « Comment Meta Movie Gen pourrait ouvrir la voie à une nouvelle ère basée sur l’IA pour les créateurs de contenu ».
Créer des effets sonores et des bandes sons
Movie Gen ne s’attache pas qu’à donner des options visuelles, mais permet aussi des choses au niveau du son qui accompagne ces vidéos : « Utilisez des entrées vidéo et texte pour générer l’audio de vos vidéos. Movie Gen vous permet de créer et d’étendre des effets sonores, de la musique de fond ou des bandes sonores entières. » explique Meta.
Le socle technique
Meta explique que pour créer son outil, plusieurs modèles de formation ont été créés :
- Un modèle text-to-video nommé « Movie Gen Video » et comptant 30 milliards de paramètres issus d’images, de vidéos et de fichiers audio
- Un modèle text-to-audio nommé « Movie Gen Audio » et comptant 13 milliards de paramètres
Les deux reprennent la technologie habituelle Transformer (voir la publication « Attention is all you need » de 2017) et Flow Matching.

Pour l’infrastructure technique, Meta a utilisé un peu plus de 6000 des célèbres processeurs H100 qui ont fait la fortune de Nvidia :
« Nous avons entraîné les modèles de génération de médias en utilisant jusqu’à 6 144 GPU H100, chacun fonctionnant à 700W TDP et avec 80GB HBM3, en utilisant la plateforme de serveur Grand Teton AI de Meta.
Au sein d’un serveur, il y a huit GPU qui sont uniformément connectés via des NVSwitches. D’un serveur à l’autre, les GPU sont connectés via des cartes réseau RoCE RDMA à 400 Gbps. »
Vidéo
Dans sa longue publication technique (92 pages accessibles à ce lien), Meta explique que Movie Gen permet de créer des vidéos HD personnalisées réalistes d’une durée maximale de 16 secondes (à 16 FPS). Ce qui permet de créer des vrais plans complets, mais pas non plus de réaliser un Spielberg d’une seule traite avec un prompt.
De base, le modèle crée des vidéos en 768 x 768 pixels, et c’est ensuite la surcouche « Spatial Upsampler » qui va produire une vidéo en résolution Full HD 1080p.
Meta a voulu faire un comparatif avec plusieurs autres références du marché, dont Runway Gen3, LumaLabs et Sora de OpenAI.

Pour faire ce benchmark, Meta a utilisé des vidéos de références disponibles (pour Runway Gen3, LumaLabs, Kling1.5) ou « des invites provenant de vidéos publiées sur leur site web » (pour Sora d’OpenAI, qui n’est – rappelons-le – toujours pas sorti huit mois après son annonce en grande pompe).
Audio
Côté son, les productions audio durent jusqu’à 45 secondes, et sortent à 48 kHz, la norme haute du secteur. Mais c’est sur la qualité des sorties que Meta semble s’enorgueillir :
« Le modèle gère naturellement la génération de sons de longueur variable et peut produire des sons cohérents de longue durée pour des vidéos de plusieurs minutes grâce à des techniques d’extension audio. {…} Le modèle peut générer des sons ambiants diégétiques correspondant à la scène visuelle même lorsque la source n’est pas vue, ainsi que des effets sonores diégétiques synchronisés avec les actions visuelles. {…} Il peut générer de la musique non diégétique qui soutient l’ambiance et s’aligne sur les actions de la scène visuelle, et mélanger les effets sonores et la musique de fond de manière professionnelle. »
Sur cette partie, Meta est fière de surpasser les productions de Pika et de ElevenLabs.
Conclusion et date de sortie
Sans surprise, Meta est content de présenter Movie Gen et de proposer un nouvel outil « à l’état de l’art du marché ».
Pour autant, cette nouvelle IA vidéo ne vient pas révolutionner le secteur, ni dans son développement ni dans ses résultats : des modèles de base faits de quantités colossales de données, travaillés avec une architecture Transformer, une sortie basée sur la Diffusion et un ensemble traité sur des gros clusters de Nvidia H100… pour des vidéos basiques semblables à celles proposées par des concurrents qui travaillent eux aussi de la même manière depuis deux ans maintenant.
Meta est néanmoins modeste dans ses conclusions, ce qui tranche avec l’opulent enthousiasme qui avait jailli de OpenAI lors de la présentation de Sora :
« Bien que les recherches que nous partageons aujourd’hui montrent un potentiel énorme pour les applications futures, nous reconnaissons que nos modèles actuels ont des limites.
Notamment, nous pouvons effectuer de nombreuses optimisations pour réduire encore davantage le temps d’inférence et améliorer la qualité des modèles en les faisant évoluer davantage. »
Enfin, et surtout, Meta ne semble pas pressé de rendre réellement Movie Gen disponible aux utilisateurs, parlant d’une « éventuelle sortie future »…
Pour en savoir plus :


