IA : Dossier complet sur Sora de OpenAI

36h après l’annonce, voici un dossier complet détaillé sur Sora, l’IA vidéo de OpenAI : création de vidéos, d’animations, de boucles infinies, d’images fixes, interpolation, fonctionnement technique…

17 février 2024 – 12h14

Auteur / Autrice :

Victor LB

Le jeudi 15 février 2024, trois grandes annonces ont été faites autour de l’intelligence artificielle :

Voici tout ce qu’il faut savoir sur Sora.

Sora, l’IA de création de vidéo d’OpenAI

C’est la première incursion de OpenAI sur ce marché où dominait jusque là Runway et sa Gen-2 et Pika Labs. D’autres acteurs ont aussi dévoilé récemment leurs propres IA vidéos, comme Leonardo avec Motion.

Google avait présenté Lumiere (qui succédait à Phénaki) mais on ne peut pas s’attendre à le voir proposé aux utilisateurs avant longtemps (surtout vu le niveau de Sora). Meta et Nvidia ont aussi leurs propres projets.

La promesse d’OpenAI est on ne peut plus simple :

« Créer une vidéo à partir de texte »

L’entreprise de Sam Altman explique que « Sora est un modèle d’IA capable de créer des scènes réalistes et imaginatives à partir d’instructions textuelles. »

Avec Sora, il suffit donc (théoriquement) de rentrer un prompt (une invite de texte) et l’IA va générer une vidéo fidèle, qualitative et relativement longue d’après les instructions.

La meilleure IA vidéo du marché

Fidèle au positionnement de OpenAI, Sora se présente comme le meilleur outil actuel sur le marché.

La meilleure IA de génération de vidéo en terme de qualité d’image, mais aussi en terme de durée : là où les concurrents se contentent d’animer (à grand renfort de zoom et autres travelling) des images simples sur trois ou quatre secondes, Sora peut créer des vidéos qui durent jusqu’à 60 secondes !

Et il faut le dire, quand 3 ou 4 secondes, c’est à peine un gif, 1 minute, c’est une scène complète qui relève presque du plan séquence. OpenAI réalise un exploit impressionnant.

D’autant que dans le temps, les vidéos générées par Sora ont une autre qualité majeure : leur cohérence. Les éléments présents à l’image sont consistants et perdurent dans le temps à mesure que l’animation progresse. Un arbre reste à sa place pendant toute l’évolution du plan, et son comportement à l’image évolue avec le déplacement de la « caméra ».

Les usages : Créer des vidéos, compléter des vidéos, animer des images…

Sora est capable de générer des vidéos entières en partant de zéro avec une invite de texte.

Mais l’IA peut aussi d’étendre les vidéos générées pour les rendre plus longues. Et dans certaines configuration, ça lui permet de « produire une boucle infinie », comme dans cet exemple :

Une boucle infinie créée avec Sora.

L’IA est aussi capable de prendre une image (fixe) existante et de générer une vidéo à partir de celle-ci.

L’entreprise donne d’ailleurs un exemple qui parlera aux connaisseurs : reprenant la célèbre image de la vague dans un musée créée par Dall-E 3, l’IA Sora la transforme en une animation impressionnante :

Attendez-vous à voir d’autres Tour Eiffel en feu…

Sora peut aussi… créer des images

Oui, tout simplement. OpenAI n’a pas mis l’accent dessus dans sa communication, mais Sora peut faire de la génération d’images à des niveaux de qualité aussi élevés que celles des vidéos. Résolution max ? 2 048 x 2 048 !

L’interpolation vidéo, la fonction méconnue mais extraordinaire

Une fonctionnalité de Sora totalement passée sous les radars depuis 36h et la présentation de l’IA, c’est l’interpolation : Sora peut prendre deux vidéos et créer avec une vidéo qui génère un fondu entre les deux. Le résultat est vraiment bluffant et mériterait largement une communication dédiée.

Voici un exemple de l’interpolation que peut créer Sora avec deux vidéos de référence :

Le fonctionnement technique : ce que l’on sait

Des qualités et des défauts :

OpenAI admet des points forts (« Sora est capable de générer des scènes complexes avec plusieurs personnages, des types de mouvements spécifiques et des détails précis du sujet et de l’arrière-plan. ») mais aussi des points faibles :

« Le modèle actuel présente des faiblesses. Il peut avoir du mal à simuler avec précision la physique d’une scène complexe et ne pas comprendre des cas spécifiques de cause à effet. Par exemple, une personne peut mordre dans un cookie, mais par la suite, le cookie peut ne pas avoir de marque de morsure.

{…}

Il ne modélise pas avec précision la physique de nombreuses interactions fondamentales, comme le bris de verre. »

Un monde cohérent :

L’une des raisons de la consistence et la cohérence des éléments présents dans les vidéos créées par Sora tient dans ce que l’IA comprend « comment les choses existent dans le monde physique », en plus d’une « compréhension approfondie du langage ». OpenAI développe :

« Cohérence 3D. Sora peut générer des vidéos avec un mouvement de caméra dynamique. Au fur et à mesure que la caméra se déplace et tourne, les personnes et les éléments de la scène se déplacent de manière cohérente dans l’espace tridimensionnel. »

Beaucoup d’observateurs spéculent sur la création d’un « modèle interne de physique » capable de « modéliser les lois du mouvement, de la conservation de l’énergie ou de la phénoménologique de Newton ». Mais ce modèle physique interne ne serait pas implémenté via un apprentissage tiers (comme dans un logiciel par exemple), mais serait seulement la résultante de l’accumulation de données de formation.

« Transformer » et « Diffusion » :

Niveau technique pure, on pourrait croire que Sora ne réinvente pas la roue, même si le bond est spectaculaire par rapport au marché.

L’IA est « un modèle de diffusion qui génère une vidéo en commençant par une vidéo qui ressemble à du bruit statique et la transforme progressivement en supprimant le bruit en plusieurs étapes ». On est dans un fonctionnement « Diffusion » largement partagé par les différentes start-up (comme Stability AI et son générateur Stable Diffusion).

Et comme les modèles GPT, Sora utilise une architecture Transformer, vue sur des IA de texte, d’image et de vidéo plus classiques. Mais la techno est aussi basée sur un modèle de « Diffusion Transformer » (ou DiT) qui introduit une dimension « modèles probabilistes ».

Pour plus de détails, lire ce post très intéréssant :

1/n What in the world is Sora's "diffusion transformer model"?

A diffusion transformer model is a type of generative model for images, video, and other data that combines transformer architectures with diffusion probabilistic models. Here are some key details:

– Diffusion… pic.twitter.com/T0GAxlxgr8
— Carlos E. Perez (@IntuitMachine) February 16, 2024

Détail intéressant : Le français Yann LeCun a déploré que la publication sur « Diffusion Transformer » ait été refusée car n’apportant pas assez de nouveautés alors qu’elle est partie intégrante de la création de Sora :

The Diffusion Transformer paper, by my former-FAIR-and-current-NYU colleague @sainingxie and former-Berkeley-student-and-current-OpenAI engineer William Peebles, was rejected from CVR2023 for "lack of novelty", accepted at ICCV2023, and apparently forms the basis for Sora.… https://t.co/n6Tmm0CmEi
— Yann LeCun (@ylecun) February 17, 2024

La publication « NaViT, a Vision Transformer » est citée, et l’architecture ViT issu de la publication « All are Worth Words: A ViT Backbone for Diffusion Models » aurait aussi servi :

L’architecture ViT issu de la publication « All are Worth Words: A ViT Backbone for Diffusion Models », qui est vraisemblablement utilisée dans l’architecture de Sora.

Du GPT dans le back-office :

Pour transformer une invite de texte de quelques mots en une vidéo complète et évolutive, OpenAI réutilise le fonctionnement introduit sur Dall-E : créer des sous-titres (invisibles pour l’utilisateur) à partir d’une invite, qui permettent ensuite d’élargir le champ de créativité : « Nous appliquons la technique de re-titrage introduite dans DALL·E 3 {…} nous exploitons également GPT pour transformer de courtes invites utilisateur en sous-titres plus détaillés qui sont envoyés au modèle vidéo. »

Quid des données de formation ?

Au niveau des données de formation, OpenAI a visiblement résolu un problème majeur : l’entreprise ne dispose pas de données propriétaires en grande quantité lui permettant de former un modèle sur un vaste corpus (ce qu’a par exemple Tesla avec les caméras qui composent le système de conduite autonome FSD).

Alors il semble que l’entreprise ait eu recours à la création de données synthétiques : beaucoup d’observateurs ont parlé de mondes entiers générés avec Unreal Engine 5. Ils se basent sur des artefacts visuels visibles sur les vidéos qui sont les mêmes que ceux que connaissent les yeux (attentifs) des experts.

Mais au niveau des données « organiques », Sora est aussi aller chercher un fonctionnement innovant : au lieu de standardiser et dégrader les vidéos de formations pour les exploiter dans un corpus, OpenAI a privilégié de les garder dans leurs qualités et leurs dimensions originales : « Sora peut échantillonner des vidéos grand écran 1920 x 1080p, des vidéos verticales 1080 x 1920 et tout le reste. »

Un choix gagnant (« Nous constatons empiriquement que l’entraînement sur des vidéos dans leurs proportions d’origine améliore la composition et le cadrage. ») mais qui doit imposer à OpenAI une capacité de calcul extraordinairement plus grande.

Cependant, les données de formation organiques de Sora sont et seront un sujet crucial :

OpenAI a globalement scanné toutes les données « texte » disponibles du monde pour créer ses premiers LLM, en dépit des droits d’auteur. Des procédures judiciaires ont depuis été engagées, et OpenAI a mis à disposition des sites web une procédure manuelle pour empêcher ses bots de scanner leurs (nouveaux) contenus.

Ce qui éclaire sur la vision des droits d’auteurs et de leur respect par OpenAI. Qu’en sera-t-il sur les données « vidéo » qui ont servi dans le corpus de formation de Sora ? Difficile de croire que OpenAI s’est limité à piller la section Vidéo de la plateforme de contenus libre de droits Pexel.

Alors l’entreprise a-t-elle à nouveau scanné et utilisé des contenus sous licence ? Tous les films de l’Histoire ? Les programmes de centaines de chaînes de télévision ? Des millions de vidéos Youtube ? Des millions de vidéos TikTok ?

Un autre point sensible de ces données de formation est que OpenAI a recours à des prestataires (sous-payés) dans des pays d’Asie pour étiquetter les données de formation. Un choix qui avait fait que Dall-E 2 avait une étonnante vision de la femme et l’homme parfait par rapport aux autres modèles de l’époque. Est-ce que OpenAI a eu recours à des prestataires et leur a imposé de trier et taguer des vidéos violentes ou toxiques (qui faisaient forcément partie du volume massif de données brutes) ?

Quid du bilan carbone de Sora ?

Si on ne sait pas pour le moment quelle est la taille du corpus de données de formation derrière Sora, on est sûr d’une chose : il a dû être massif. D’autant qu’OpenAI dit explicitement avoir gardé les vidéos utilisées dans leurs formats originaux.

On ne parle plus de gigaoctets de texte ni de téra : Sora a probablement été formé sur des petaoctets de données (1 million de milliards d’octets), voire des exaoctets (1 milliard de milliards d’octets) de vidéos.

Créer, former et utiliser Sora a consommé et consomme en conséquence autant d’énergie qu’une ville de taille moyenne, voire plus. Une énergie consommée aux Etat-Unis, où l’électricité est très loin d’être verte et décarbonnée comme en France.

Se pose alors la question du bilan carbone de Sora. Et du retour sur investissement réel de ce bilan carbone par rapport à l’usage qui en sera fait.

Sam Altman crée des exemples à la demande

Bien sûr, OpenAI était très enthousiaste de partager des vidéos époustouflantes crées par Sora dans la foulée de son annonce. Une partie est d’ailleurs directement visible dans l’article de blog dédié sur le site de la start-up.

Mais Sam Altman (visiblement pas préoccupé à ce moment là par une levée de fonds de 7000 voire de 8000 milliards de dollars) a proposé en live sur Twitter de créer des vidéos à la volée avec les prompts proposés par les internautes.

Et voici quelques exemples de Sora crées sur-mesure :

https://t.co/rPqToLo6J3 pic.twitter.com/nPPH2bP6IZ
— Sam Altman (@sama) February 15, 2024

https://t.co/P26vJHlw06 pic.twitter.com/AW9TfYBu3b
— Sam Altman (@sama) February 15, 2024

https://t.co/qbj02M4ng8 pic.twitter.com/EvngqF2ZIX
— Sam Altman (@sama) February 15, 2024

https://t.co/rmk9zI0oqO pic.twitter.com/WanFKOzdIw
— Sam Altman (@sama) February 15, 2024

https://t.co/uCuhUPv51N pic.twitter.com/nej4TIwgaP
— Sam Altman (@sama) February 15, 2024

https://t.co/SOUoXiSMBY pic.twitter.com/JB4zOjmbTp
— Sam Altman (@sama) February 15, 2024

Cet exemple de Minecraft créé par Sora est aussi très impressionnant (et repose la question des données de formation et des droits d’auteur, même si Minecraft est la propriété de Microsoft) :

Minecraft has been achieved internally

Yes this is Sora's hallucination of Minecraft. It can't resist the urge to make the sky look less pixelated 😅 pic.twitter.com/otTr9dnqf4
— Jim Fan (@DrJimFan) February 16, 2024

Un produit pas encore disponible

OpenAI a en revanche seulement présenté Sora, et a expliqué que le produit passait dans les mains de la Red Team pour une batterie de tests poussés visant à aller en chercher limites et problèmes : OpenAI ne veut pas servir à créer des deepfake porno de Taylor Swift, et ça se comprend.

Et comme Meta l’annonçait récemment, OpenAI va insérer dans chaque vidéo générée par son IA des métadonnées (C2PA) pour les rendre identifiables par les différentes plateformes de diffusion : Google, réseaux sociaux, etc.

Enfin, pour conclure ce dossier sur Sora, que serait une annonce d’OpenAI sans mention de l’AGI :

« Sora sert de base à des modèles capables de comprendre et de simuler le monde réel, une capacité qui, selon nous, constituera une étape importante pour atteindre l’AGI. »

Plus d’informations sur Sora :

Voir plus > Image IA – Intelligence artificielle – OpenAI – Vidéo IA

Ariel World est sur Google News

> Techno