Meta continue de déployer sa gamme d’IA open source gratuites avec la collection Llama 3.2 comprenant quatre nouveaux modèles.
Auteur / Autrice :
Les modèles open source de Meta sont largement utilisés dans le monde entier, des étudiants amateurs en école d’ingénieur aux plus grands acteurs de l’industrie.
Llama 3.2 élargit la gamme d’une manière considérable, sans apporter un gap très conséquent comme l’a été Llama 3 par rapport à Llama 2. La concurrence croissante entre Llama et Qwen montre aussi que les petits modèles open peuvent offrir des capacités multimodales qui commencent à rivaliser avec leurs homologues propriétaires plus importants (venus de OpenAI, Anthropic, Google ou Microsoft).
Meta décline Llama avec la version 3.2
Avec Llama 3.2, Meta a étendu sa famille de modèles Llama à deux nouvelles catégories :
- Les modèles orientées vision & langage
- Les modèles suffisamment petits pour être intégrés dans des appareils périphériques (ie. des smartphones, mais pas que).
Meta a présenté Llama 3.2, qui comprend deux grands modèles vision-language, et deux petits modèles text-only, ainsi que des outils de développement pour la création d’applications basées sur les nouveaux modèles.
Les deux modèles Llama 3.2 « 90B » et « 11B » acceptent les images et le texte en entrée, et génèrent des sorties textuelles (le traitement des images n’est pas disponible dans l’Union européenne). Les deux petits modèles Llama 3.2 « 1B » et « 3B » acceptent et génèrent du texte. Les quatre modèles peuvent traiter 131 072 tokens de contexte d’entrée et générer 2 048 tokens de sortie.
Les modèles 90B et 11B sont basés sur Llama 3.1. L’équipe de Meta a utilisé un modèle Llama 3.1, et y a ajouté un encodeur d’images et des couches cross-attention. Andrew Ng explique notamment :
« Ces nouveaux éléments ont été entraînés, à partir d’images et de textes correspondants, à produire des encodements d’images correspondant aux encodements de textes résultants. Pour améliorer la capacité du modèle à interpréter les images, l’équipe a affiné les nouveaux éléments par le biais de l’apprentissage supervisé et de la DPO. À partir d’une image, ils ont appris à générer des questions et des réponses bien classées selon un modèle de récompense. »
Ce qui fait que Llama 3.2 répond aux entrées de texte de manière identique à Llama 3.1.
De même, les versions de Llama 3.2 « 3B » et « 1B » sont basées sur Llama 3.1 dans sa version « 8B ». La team de Meta a élagué chaque modèle à l’aide d’une méthode qui n’est pas précisée. Mais ils ont ensuite utilisé les deux versions 8B et 70B de Llama 3.1 comme modèles d’enseignants, en formant les élèves Llama 3.2 à imiter leurs résultats. Enfin, ils ont affiné les modèles pour qu’ils suivent des instructions, résument des textes, utilisent des outils et effectuent d’autres tâches, à l’aide de données synthétiques générées par Llama 3.1 « 405B » (le big boss).
Toujours des performances compétitives face aux meilleurs modèles du marché
D’après les premiers benchmarks, les performances des Llama 3.2 « 90B » et « 11B » sont à peu près comparables à celles de Claude 3 Haiku et de GPT-4o-mini, les plus petits modèles de langage visuel d’Anthropic et d’OpenAI respectivement.
Par exemple, Llama 3.2 « 90B » bat les deux modèles fermés sur MMMU et MMMU-Pro, en répondant à des questions visuelles sur des graphiques, des tableaux, des diagrammes et d’autres images. Ils ont également battu Claude 3 Haiku et GPT-4o-mini sur GPQA, qui teste le raisonnement de niveau supérieur dans divers sujets académiques.
Cependant, sur ces benchmarks, les grands modèles Llama 3.2 sont loin derrière les grands modèles propriétaires comme GPtTo1 et Sonnet 3.5, ainsi que le modèle open Qwen-2VL de taille similaire.
Les capacités de vision et de langage de Llama 3.2 alimentent désormais le chatbot Meta AI de l’entreprise de Mark Zuckerberg (pas disponible en France). Par exemple, les utilisateurs peuvent uploader la photo d’un chat « Maine Coon » et demander au chatbot d’identifier son espèce, ou publier une photo de pâtes au thon (pourquoi pas ?) et demander la recette à utiliser pour reproduire le plat. Meta AI utilise également la compréhension des images de Llama 3.2 pour éditer des images à partir d’instructions textuelles.
Nouveaux outils pour les développeurs
Meta a aussi annoncé Llama Stack, une série d’API pour personnaliser les modèles Llama et construire des applications « agents » basées sur Llama.
Citons aussi Llama Guard, un modèle conçu pour évaluer le contenu en fonction de thèmes sexuels, de la violence, de la planification criminelle et d’autres questions, et qui signale les images et les textes « problématiques ». Llama Guard 3 11B Vision est fait avec Llama 3.2 90B et 11B, alors que Llama Guard 3 1B est basé sur Llama 3.2 3B et 1B.
Tous les modèles sont gratuits pour les développeurs qui ont moins de 700 millions d’utilisateurs actifs mensuels.


