__


L’IA VASA-1 de Microsoft est capable de produire une synchronisation labiale-audio, mais également de générer un large spectre de nuances faciales (très) expressives et de mouvements (naturels) de la tête.

Microsoft dévoile Vasa-1

On avait déjà parlé plusieurs fois de l’intelligence artificielle proposée par D-ID (voir notre premier test daté d’avril 2023 et notre second test daté lui de novembre dernier). D-ID est une IA qui a la capacité d’animer n’importe quelle visage sur une photo pour ensuite le faire parler.

Mais une équipe de Microsoft Research Asia vient de dévoiler une nouvelle IA pour accomplir cette angoissante promesse : il s’agit de VASA-1.

Les chercheurs parlent de « visual affective skills » (VAS) car ils ont proposent de créer une animation complète du visage d’une personne « à partir d’une seule image statique et d’un clip audio vocal ». Imaginez ce que pourrait faire une personne avec qui vous auriez échangé quelques vocaux sur une banale app de rencontre.

Mais l’entreprise y voit une autre direction : Une technologie qui « ouvre la voie » à la création en temps réels d’avatars réalistes qui imitent les comportements humains, leur conversation, pour interagir avec eux, selon Microsoft.

Comment fonctionne cette IA qui fait parler les photos ?

VASA-1, est capable non seulement de produire des mouvements de lèvres parfaitement synchronisés avec l’audio, mais également d’utiliser un large spectre de nuances faciales et de mouvements naturels de la tête : ce qui permet de rendre l’animation générée hyper réaliste, bien loin de services bas de gamme (mais drôles) comme Hitpaw ou Reface Unboring.

« Les principales innovations comprennent un modèle holistique de génération de dynamique faciale et de mouvement de la tête qui fonctionne dans un espace latent du visage, ainsi que le développement d’un tel espace latent du visage expressif et démêlé à l’aide de vidéos. »

Dans le détail, le modèle derrière VASA-1 démêle l’apparence, la forme de la tête en 3D et la dynamique du visage, ce qui lui permet d’opérer un contrôle des attributs séparés, et une édition du contenu généré.

Les chercheurs sont aussi fiers que leur méthode présente la capacité de gérer les entrées « images » et « audio » qui ne sont pas inclus dans ses données de formation. Par exemple, VASA-1 peut gérer des photos artistiques (voir l’exemple avec La Joconde), des audios chantés (de quoi donner de nouvelles idées de Deepfake de Taylor Swift ?) et des discours d’autres langues que l’anglais (alors que c’est la seule langue incluse dans les données de formation).

Enfin, en terme de qualité, VASA-1 génère des vidéos HQ qui sont très loin des rendus pixelisés ou bourrés d’artefacts que l’on peut voir dans d’autres outils IA. Côté caractéristiques, l’IA de Microsoft des vidéos format 512 x 512 pixels, et jusqu’à 40 FPS.

Est-ce que tout ça peut faire peur ? Oui.

Mais Microsoft l’assure : leurs travaux de recherche ne visent que « des applications positives » et « n’est pas destiné à créer du contenu utilisé pour induire en erreur ou tromper ».

Les chercheurs assument que leur IA peut « être utilisée à mauvais escient pour usurper l’identité » mais qu’ils s’opposent « à tout comportement visant à créer des contenus trompeurs ou préjudiciables de personnes réelles ».

Ils estiment aussi, et surtout que les vidéos générées avec leur IA « contiennent encore des artefacts identifiables ».

Et ils concluent : « Tout en reconnaissant la possibilité d’une mauvaise utilisation, il est impératif de reconnaître le potentiel positif. Les avantages – tels que l’amélioration de l’équité en matière d’éducation, l’amélioration de l’accessibilité pour les personnes ayant des problèmes de communication, l’offre d’un accompagnement ou d’un soutien thérapeutique à ceux qui en ont besoin, entre autres – soulignent l’importance de nos recherches et d’autres explorations connexes. Nous nous engageons à développer l’IA de manière responsable, dans le but de faire progresser le bien-être humain. »

Mais surtout, ils annoncent que ce projet est un projet de recherche et qu’ils ne publieront pas l’outil (sous aucune forme) tant que les enjeux de sécurité ne seront pas levés : « Nous n’avons pas l’intention de publier une démo en ligne, une API, un produit, des détails de mise en œuvre supplémentaires ou toute offre connexe tant que nous ne sommes pas certains que la technologie sera utilisée de manière responsable et conformément aux réglementations appropriées. »