__

Emu video, l’IA text-to-video de Meta


Emu Video : Meta dévoile une nouvelle IA qui permet de générer des vidéos à partir d’un prompt de texte, comme Runway Gen-2 ou Pika Labs.

Auteur / Autrice :

Meta continue d’être l’entreprise la plus active dans l’IA open source

Meta continue de prouver que le groupe est à l’avant-garde de l’intelligence artificielle, et que son essor passera par ses travaux et recherches dans les années à venir. Seulement, loin des éco-systèmes fermés, propriétaires et tournés vers la rentabilité de OpenAI, Microsoft et Google, Meta prend le parti du partage de la recherche et du savoir, et de l’open source.

Le Chief AI Scientist de Meta, le français Yann Le Cun (co-détenteur du prix Turing avec Geoffrey Hinton), est d’ailleurs l’un des plus virulents opposants aux normes et lois contraignantes qui commencent à être envisagés partout dans le monde.

Son argumentation est simple : Les modèles d’IA actuels comme GPT-4 ou Bard (basés sur des LLM) ne peuvent pas devenir suffisamment performants pour être réellement dangereux, et encore moins autonomes (AGI). Aussi, mettre en place des régulations très contraignantes (sur l’open source notamment) ne profitera qu’aux grosses entreprises fermées, qui développeront alors dans l’ombre des outils bien plus puissants, à l’abris du regard des régulateurs et des contrôleurs. Des régulateurs et contrôleurs qui ne pourront de plus pas les comprendre quand ils y seront confrontés a posteriori, faute d’avoir le bagage nécessaire – on parle ici des programmes les plus compliqués du monde, que même leurs concepteurs ne comprennent pas parfaitement.

Face au lobbying législatif agressif de Microsoft et OpenAi, Yan Le Cun cite IBM, HuggingFace et Mistral comme étant du bon côté du progrès de l’IA.

Plus largement, Le Cun est sceptique sur les capacités réelles des LLM à aller plus loin dans leur fonctionnement actuel : Le 28 octobre 2023, il expliquait : “Les LLM auto-régressifs actuels pourraient devenir très compétents, mais ils resteraient stupides : Ils auront toujours des hallucinations, ils seront toujours difficiles à contrôler et ils régurgiteront toujours simplement des choses pour lesquelles ils ont été entraînés. PLUS IMPORTANT, ils seront toujours incapables de raisonner, d’inventer de nouvelles choses ou de planifier des actions pour atteindre leurs objectifs.”

Il allait plus loin dans son argumentation, et parlait aussi de l’avenir. Il revenait d’ailleurs sur les futurs IA basées sur JEPA qu’il souhaite développer, disant : “Nous travaillons dessus.”

Mais au-delà des opinions de Yann Le Cun sur l’émergence improbable d’une AGI avec les technologies actuelles, et sur la régulation réelle que cela doit appeler dans le monde, Meta propose donc régulièrement de nouvelles technologies d’IA. Citons par exemple :

Une liste loin d’être exhaustive, à laquelle s’ajoute depuis le 16 novembre une nouvelle IA : Emu Video.

Comme d’autres IA existantes du marché, comme Runway Gen-2 et Pika Labs, Emu Video est une IA de génération de vidéo, basée sur un fonctionnement text-to-video. Le fonctionnement théorique est donc très simple : créer une vidéo avec une simple invite de texte (ou prompt) grâce à l’IA.

Tout savoir sur Emu Video

En utilisant donc un prompt plus ou moins détaillé, Emu Video permet de générer des vidéos de 4 secondes, à 16 images par seconde, dans un format carré de 512 pixels sur 512.

Emu Video est aussi une suite directe de Emu, le “premier modèle fondamental pour la génération d’images” (comme Ideogram, Midjourney ou Dall-E) présenté par Meta un peu plus tôt cette année, lors de Meta Connect.

L’IA serait déjà très performante. D’après Meta, Emu Video est déjà meilleur que les autres outils du marché, comme Runway Gen-2 et Pika Labs (cités précédemment). Un comparatif est d’ailleurs proposé sur l’article dédié :

Les performances de Emu Video comparées à d’autres IA connues du marché, comme Gen-2 et Pika.

Le fonctionnement de Emu Video

Outre que le programme est directement issu de Emu, Meta explique que Emu Video découle aussi de travaux plus concrets sur “des outils d’édition d’images pour Instagram” qui permettent de prendre une photo et de changer son style visuel ou son arrière-plan.

Techniquement, Emu Video est une méthode de génération texte-vidéo basée sur des modèles de diffusion, à l’instar de Stable Diffusion. Meta a mis au point une architecture unifiée pour permettre des générations de vidéos qui peuvent être basées sur plusieurs types d’entrées :

  • Texte uniquement
  • Image uniquement
  • Texte et image

Meta a aussi divisé la génération de Emu Video en deux étapes successives :

  1. Générer des images conditionnées par une invite textuelle
  2. Générer une vidéo conditionnée à la fois par le texte et l’image générée.

Le point fort de Emu Video étant qu’il est mis en œuvre avec un “seul modèle de diffusion”.

Le process de génération de Emu Video.

Exemples et interface de démo

Voici trois exemples présentés qui montrent les performances de Emu Video, avec les invites de texte associées :

  • Premier exemple – Une vidéo d’un couple dansant, généré avec le prompt suivant : “Un couple danse élégamment dans une salle luxueuse, lors d’un bal masqué, photoréaliste”
Un exemple de vidéo générée par l’IA Emu Video.
  • Deuxième exemple – Un bateau, généré avec le prompt suivant : “Une photo à 360° d’un yacht élégant naviguant gracieusement dans les eaux cristallines des Caraïbes”
  • Troisième exemple, généré avec le prompt : “Un liquide bleu tombe dans une usine.”

Meta a mis en place une interface qui permet de tester Emu Video, disponible à ce lien. Mais l’essai est encadré, et il est seulement possible de tester des formats pré-enregistrés : Partir d’un “Un ours brun en origami” et lui faire faire une action parmi plusieurs options, dans un cadre à choisir parmi plusieurs cadres. L’interface est tout de même très intéressante à utiliser, et promet de grandes choses une fois l’outil finalement lancé.

Pour aller plus loin :