Une intelligence artificielle permettant de décomposer la profondeur d’une image ou d’une vidéo a été développée par une équipe de chercheurs de TikTok et de l’université de Hong Kong.
Auteur / Autrice :
Les enjeux récents de la profondeur
Dans quelques jours, Apple sortira son tout nouveau produit : le casque Apple Vision Pro. Un casque qui permettra d’insérer des éléments 3D dans le champ de vision de l’utilisateur, et de créer un environnement de réalité mixte.
La profondeur pourrait devenir un enjeu pour les prochaines générations de développeur de programmes en tout genre, si la gamme de casques d’Apple rencontre son public. Une condition loin d’être obtenue : le casque est tout simplement hors de prix, pèse très lourd, est assez peu autonome, et rejeté par plusieurs grands noms : Spotify, Netflix…
Néanmoins, le Vision Pro de Apple pourrait donner un élan nouveau à un marché déjà existant. En mars prochain, cela fera 10 ans que Mark Zuckerberg et son groupe Facebook ont acheté la start-up de casques Oculus. Devenu Meta, l’entreprise avait mis les casques AR/VR au centre de ses priorités pendant plusieurs années, en parallèle du développement du « métaverse » assorti.
Un axe stratégique qui n’a pas pour le moment eu les résultats escomptés, mais qu’importe : Meta va bien, très bien, et se tourne vers l’intelligence artificielle.
D’ailleurs, un projet chez Meta – déjà – proposait il y a bientôt un an un programme IA d’évaluation de la profondeur : DinoV2.
TikTok dévoile Depth Anything
« TikTok dévoile Depth Anything » : Un titre quelque peu globalisant, il faut l’admettre, puisque c’est un consortium de chercheurs travaillant chez ByteDance, l’entreprise derrière TikTok, qui s’est associé avec des chercheurs de l’université de Hong Kong et des chercheurs du lab de la Zhejiang University.
Comme son nom l’indique, Depth Anything est une IA qui permet d’évaluer la profondeur : ses créateurs ont voulu « un modèle de base simple mais puissant traitant toutes les images en toutes circonstances ».
Depth Anything est formé sur une double base :
- 1,5 million d’images étiquetées décomposées en 6 bases
- 62 millions d’images non étiquetées décomposées en 8 bases

Cette double base de formation a permis de créer une IA d’estimation de la profondeur monoculaire (Monocular Depth Estimation, ou MDE) ultra-performante.
Les chercheurs comparent beaucoup les performances de Depth Anything avec meilleure que MiDaS v3.1, estimant leur outil meilleur sur plusieurs points.
Voici plusieurs exemples de Depth Anything, souvent comparés à Midas :
- D’abord un premier exemple avec des champignons :

- Un homme portant un casque audio : (au centre Midas, à droite Depth Anything)
- Une montagne russe :
- Des dauphins :
- Une danseuse :
Réutiliser la profondeur obtenue dans de nouvelles vidéos
Très bien, on peut obtenir les différentes strates de profondeur sur une image ou une vidéo avec Depth Anything. Mais pour en faire quoi ?
C’est très simple : pour recréer d’autres vidéos similaires, en utilisant d’autres IA par exemple. Dans la publication présentant le projet, les auteurs présent plusieurs exemples créés avec MagicEdit. Voici deux exemples :
- Une jeune femme plongeant la tête dans l’eau :
- Un bateau voguant sur des flots calmes :
Des premiers exemples illustratifs qui ouvrent un monde d’usages potentiels.
Pour en savoir plus :
- La page de présentation de Depth Anything
- Le GitHub du projet
- Une interface de démo sur HuggingFace
- La publication arXiv


