Dévoilé au même moment que Sora et Gemini 1.5, Large World Model peut créer du texte, des images et des vidéos avec une techno open source.
Auteur / Autrice :
Tout savoir sur Large World Model
Ces derniers jours, Google et OpenAI ont gagné l’attention de curieux et des experts de l’intelligence artificielle :
- Le premier a dévoilé Gemini 1.5 à peine quelques jours après avoir sorti Gemini Ultra (et abandonné la marque Bard).
- Le second a dévoilé son IA maison de génération de vidéo, Sora, présentant des visuels convaincants mais laissant planer un mystère trop épais sur ce que sa techno est réellement. Pour être transparent, je pense qu’une belle cinématique n’a jamais fait un bon jeu vidéo. Je n’ai rien vu ni lu ni appris sur Sora qui m’ait donné le sentiment d’une révolution par rapport aux autres acteurs comme Meta (Emu Video), Runway (Gen-2) ou encore Pika (Pika 1.0). La start-up a avancé ses pions dans la vidéo et a montré avoir un coup d’avance, mais là où Pika et Runway produisent chaque jours des millions de vidéos, OpenAI teste une beta en interne. Une bien meilleure beta, mais une beta quand même.
Cette digression close, revenons au sujet principal : pendant que monde regardait ébahi les cinématiques promotionnelles de OpenAI, ou s’imaginait injecter le bon tiers des Rougon-Macquart dans Gemini pour discuter avec Nana, une autre sortie est passée totalement inaperçue. Et je ne parle pas de V-JEPA de Meta.
Je parle de Large World Model, pré-publié sur arXiv le 13 février dernier. Un modèle qui est lui-aussi formé avec des vidéos, en plus de textes et d’images, car celles-ci apportent des « informations temporelles précieuses absentes du langage et des images ».
L’équipe derrière LWM part d’un constat simple : « Les modèles linguistiques actuels ne parviennent pas à comprendre les aspects du monde difficiles à décrire avec des mots et ont du mal à gérer des tâches complexes et longues. »
En utilisant des vidéos en plus d’images et de textes, LWM pourrait développer une compréhension autant des « connaissances humaines » que « du monde physique ». Yann LeCun ne partage pas vraiment cet avis, mais c’est un autre point.
Néanmoins, former un modèle à partir de vidéos (de millions voire de milliards de tokens) est bien plus complexe qu’à partir de texte ou d’images : les données (légalement exploitables) sont largement limitées, les ressources techniques (GPU, VRAM, infrastructures) nécessaires sont bien supérieures et l’ensemble est globalement plus complexe.
Pour « relever ces défis » et y parvenir, l’équipe derrière LWM a obtenu un vaste corpus de données de vidéos et de livres (dont Llama 2 7B de Meta est le socle) et utilisé la technique RingAttention pour entraîner LWM de manière évolutive sur de longues séquences et augmenter « progressivement la taille du contexte de 4K à 1 million de jetons ».
De là, ils ont produit une famille de quatre modèles 7B :
- Deux capables de traiter des documents texte longs : LWM-Text, LWM-Text-Chat
- Et deux des vidéos : LWM, LWM-Chat (à plus d’un million de tokens)
Une IA open source multimodale capable produire texte, images et vidéos
Ainsi, une petite équipe a publié des modèles open source multimodaux (vidéo, texte, image en entrée) et dotés d’une capacité de contexte de 1 million de tokens, comme Gemini 1.5.
Mais surtout, c’est une IA open source qui permet des sorties multimodales : Large World Model permet de :
- Créer du texte
- Créer des images
- Créer des vidéos
- Analyser une image et poser des questions desssus
- Analyser une vidéo de 1h et poser des questions dessus (!)


Un exploit et une belle avancée qui confirme encore une fois qu’il n’y pas de gap véritable entre les géants de l’IA fermées et l’effervescence de l’univers open source : « We have no moat ».
Les tests et les benchmarks diront probablement que le niveau de LWM est (largement) inférieur à Gemini 1.5 à contexte (entre 128k et 1M tokens) et demande équivalente, mais les moyens pour développer LVM et la famille Gemini (Nano, Pro, Ultra et 1.5) sont très différents.
De même, les images et vidéos générés sont inférieurs à Midjourney ou Sora, c’est sûr, mais la technologie est open source et relativement légère. Une promesse d’avenir très importante.
Pour en savoir plus sur Large World Model :


