__

Intelligence artificielle : Meta ne s’arrête plus, et dévoile DINOv2

Meta dévoile un nouveau projet d'intelligence artificielle, avec la version 2 de DINO.

Oubliez le métavers : Meta est l’entreprise la plus sérieuse en intelligence artificielle en 2023.

Auteur / Autrice :

Intelligence artificielle : Il faudra (largement) compter avec Meta

Plus de 30 milliards de dollars. C’est ce qu’a dépensé Meta (Facebook, Instagram, WhatsApp…) dans le “Métavers”, au cours des trois dernières années. Une dépense qui peut déjà sembler en elle-même plus que conséquente : On parle d’un chiffre supérieur au PIB du Honduras, de l’Islande ou du Sénégal. Une dépense qui peut sembler d’autant plus impressionnante au regard de ce qu’elle a généré comme recette : presque rien, quelques millions de dollars tout au plus.

Dans un excellent avis sur le sujet, Debarghya Das expliquait que cet échec est aussi largement imputable à des ingénieurs surpayés n’ayant jamais délivré le moindre produit fini, et donc le modèle était aussi de faire prospérer la poule aux oeufs d’or : les finances de Meta.

Quoi qu’il en soit, Meta aborde 2023 autour d’un axe autrement plus intéressant : l’intelligence artificielle. Et sur ce terrain, le groupe de Mark Zuckerberg est indéniablement meilleur, largement meilleur. Et pourrait bien avoir son mot à dire face à la triangulaire attendue entre OpenAI/Microsoft, Google/Alphabet et le projet de Elon Musk “TruthGPT” (voir notre article).

Car ces dernières semaines, du côté des équipes “intelligence artificielle” de Meta, les nouveautés sont presque hebdomadaires, et toujours impressionnantes :

  • Le projet LLaMA : voir
  • Le projet Segment Anything Model : voir
  • Le projet Animated Drawings : voir

Et c’est maintenant du côté du projet DINO que Meta dévoile une actualisation d’envergure.

Pour rappel, en mai 2021, des chercheurs de Meta avaient présenté DINO (pour “Self-Distillation with no labels”), un modèle d’IA auto-supervisé travaillant autour de l’image, pour des tâches comme la classification ou la segmentation. 

Avec DINOv2, Meta publie maintenant une version considérablement améliorée, et explique d’ailleurs que DINOv2 “complète nos autres recherches récentes autour de la Computer vision, y compris Segment Anything” citée précédemment.

Meta AI dévoile DINOv2, une avancée de taille en Computer Vision

Le 17 avril 2023, Meta a donc dévoilé le deuxième version de DINO, nommée simplement DINOv2.

Il s’agit d’une nouvelle méthode de formation de modèles de Computer Vision (vision par ordinateur), que Meta dit être d’un très haut niveau de performance, et qui se base sur un apprentissage auto-supervisé. Soit la même méthode que celle utilisée pour créer les LLM de pointe utilisées dans les IA génératives actuelles, comme GPT-4 de OpenAI.

“L’apprentissage auto-supervisé est un moyen puissant et flexible de former des modèles d’IA, car il ne nécessite pas de grandes quantités de données étiquetées. Comme avec d’autres systèmes auto-supervisés, les modèles utilisant la méthode DINOv2 peuvent être formés sur n’importe quelle collection d’images, sans avoir besoin de métadonnées associées. Considérez-le comme étant capable d’apprendre de toutes les images qui lui sont données, plutôt que de celles qui contiennent un ensemble spécifique de hashtags ou de texte alternatif ou de légende.”

Parce qu’il utilise l’auto-supervision, DINOv2 peut apprendre de n’importe quelle collection d’images. Il peut également apprendre des fonctionnalités, telles que l’estimation de la profondeur, que l’approche standard actuelle ne peut pas.

  • Surmonter les limites de la pré-formation image-texte

Avec cette approche, DINOv2 se dissocie donc de la méthode “classique” de préformation image-texte, comme CLIP et OpenCLIP. Une méthode qui repose sur les informations textuelles qui accompagnent une image (légende, texte alternatif, nom du fichier, etc) pour permettre au programme de la comprendre. De fait, ce fonctionnement implique d’ignorer des informations importantes qui ne seraient pas explicitement mentionnées dans ces descriptions textuelles.

Par exemple, la légende de cette photo de Mbappé passant à côté du trophée de la Coupe du monde (“Kylian Mbappé après la finale perdue de la Coupe du monde 2022)” n’indique pas la distance qui les sépare, la couleur du maillot du joueur, son expression faciale, ou encore le fait qu’il porte un autre trophée dans sa main droite. Des informations pourtant très importante pour qu’une IA puisse comprendre cette image dans son ensemble, et l’utiliser dans un modèle plus vaste.

Après la finale perdue de la coupe du monde 2022, quel est le bilan de l'équipe de France de football depuis les débuts de la compétition, en 1930 ?
Kylian Mbappé après la finale perdue de la Coupe du monde 2022

Plus largement, le besoin d’annotations textuelles humaines des images est “un goulot d’étranglement” selon Meta, car il limite la quantité de données à utiliser pour former un modèle : “Dans des domaines d’application spécialisés, les images sont difficiles voire impossibles à étiqueter. La formation de modèles d’apprentissage automatique sur l’imagerie cellulaire étiquetée, par exemple, est un défi, car il existe un nombre limité d’experts qui peuvent annoter les cellules, et certainement pas à l’échelle requise.”

Des lacunes très fortes que Meta explique pouvoir “entraîner de mauvaises performances”, que DINOv2 évite en étant “basé sur un apprentissage auto-supervisé”, et “ne se fiant pas aux descriptions textuelles”.

Pour passer de DINO à DINOv2, Meta explique qu’il a fallu” relever plusieurs défis” : d’abord, créer un vaste ensemble de données d’entraînement, puis améliorer l’algorithme d’entraînement et sa mise en œuvre opérationnelle, et enfin “concevoir un pipeline de distillation fonctionnel”.

La base de données que Meta a mis au point pour produire DINOv2 était basée sur 1,2 milliard d’images sources, qui après un double travail de filtre pour “l’élimination des images non pertinentes et l’équilibrage de l’ensemble de données entre les concepts” a donné une base finale de 142 millions d’images.

Pour autant, même si un plus grand modèle est (presque) toujours meilleur qu’un petit, Meta explique que “l’augmentation de la taille du modèle rend la formation plus difficile en raison de l’instabilité potentielle”. Alors, “dans DINOv2, nous avons inclus des méthodes de régularisation supplémentaires inspirées de la recherche de similarité et de la littérature de classification, ce qui rend l’algorithme d’apprentissage beaucoup plus stable”. Aussi, le code d’apprentissage de DINOv2 intègre les dernières implémentations d’apprentissage distribué et en précision mixte proposées dans l’avant-gardiste PyTorch 2 ainsi que les dernières implémentations d’algorithmes de calcul de xFormers.

Ce qui permet finalement des cycles d’itération plus rapides et plus efficaces selon Meta : “Globalement, avec un matériel équivalent, notre code fonctionne environ deux fois plus vite avec seulement un tiers de l’utilisation de la mémoire, ce qui permet une mise à l’échelle des données, de la taille du modèle et du matériel”.

  • A quoi ça sert :

Pour l’instant, trois usages sont clairement mis en avant pour DINOv2 par Meta :

  1. Semantic Segmentation : Les fonctionnalités de DINOv2 peuvent facilement être utilisées dans des modèles prédisant la classe d’objet par pixel dans une seule image.
  2. Depth Estimation : Les fonctionnalités de DINOv2 peuvent facilement être utilisées dans des modèles prédisant la profondeur par pixel à partir d’une seule image, à la fois dans et hors de la distribution.
  3. Instance Retrieval : Trouver des œuvres d’art similaires à une image donnée à partir d’une grande collection d’images d’art. Les fonctionnalités de DINOv2 peuvent facilement être utilisées pour retrouver des images similaires à une image d’interrogation en utilisant une approche non paramétrique : les images de la base de données sont simplement classées en fonction de la similarité de leurs caractéristiques avec celles de l’image d’interrogation.

Les modèles de computer vision auto-supervisés comme DINOv2 seront utiles dans une grande variété d’applications. Pour donner un exemple concret et large de l’utilisation de DINOv2, Meta explique avoir collaboré avec le World Resources Institute et avoir utilisé leur IA pour cartographier les forêts, arbre par arbre, sur des zones de la taille d’une région : “Notre modèle auto-supervisé a été formé sur des données provenant de forêts d’Amérique du Nord, mais les évaluations confirment qu’il se généralise bien et fournit des cartes précises dans d’autres endroits du monde”.

  • Encore et toujours des français derrière de programme :

C’est récurrent : les français sont tout simplement partout dans les programmes “Intelligence artificielle” de Meta. Et en très grand nombre parmi les signataires de cette nouvelle version de DINO : Pierre Fernandez, Timothée Darcet, Théo Moutakanni, Huy Vo, Marc Szafraniec, Daniel Haziza, Hervé Jegou, Patrick Labatut, ou encore Armand Joulin. La plupart d’entre eux sont passés par Polytechnique, mais aussi l’INRIA et l’ENS. Cocorico.

Pour aller plus loin :