Comment faire parler une image avec l’IA ? Test de D-ID, une IA pour faire parler un visage sur une image grâce aux dernières avancées des technologies d’intelligence artificielle.
Auteur / Autrice :
Une IA pour un visage qui parle ? Une IA pour faire parler une image ? Comment faire parler une image avec IA ? Faire parler une photo grâce à une IA ? Il y a quelques mois, notre premier test d’une nouvelle intelligence artificielle (ou IA) extraordinaire nommée D-ID permettait d’obtenir une solution à ces nombreuses questions qui sont de plus en plus souvent posées.
En effet, l’émergence depuis un an et demi des technologies d’intelligence artificielle générative dans le domaine de l’image permet de repousser les limites de la créativité : avec des outils comme Dall-E 3, Ideogram ou Midjourney, il est désormais simple de créer des incroyables images, des portraits bluffants de réalisme comme des bijoux de bizarrerie. Et d’autres outils permettent de créer des vidéos, comme Runway Gen-2 et Pika Labs, et d’animer des images pour les transformer en vidéos.

Mais plusieurs mois ont passé, et D-ID s’est largement amélioré, offrant de nouvelles fonctionnalités grâce à l’IA qui permettent maintenant d’aller beaucoup plus loin pour animer des photos, des images, des visages, et les faire parler !
Cette fin d’année 2023 est donc un bon moment pour faire un second test de ID, et voir où l’IA s’est améliorée, et si elle est toujours la meilleure IA pour animer des photos et des images.
D-ID, une IA payante qui propose plusieurs essais gratuits
Dans sa version d’essai actuelle, D-ID propose 20 crédits gratuits pour essayer ses outils.
D-ID propose plusieurs plans payants, dont les prix évoluent avec le temps, tout comme les options. Voici une vue complète des différents tarifs et options actuellement proposés :

Pour ce test, seule la version gratuite de D-ID est utilisée.
Test de D-ID : Faire parler une photo avec l’IA
Lorsqu’on est connecté à l’interface, D-ID propose plusieurs types de personnages réels déjà existants à animer et à faire parler : des hommes et des femmes qui peuvent répondre à plusieurs usages. Une option “HQ” réservée seulement aux utilisateurs payants. Voici une quinzaine d’entre-eux :

D-Id propose également d’animer directement un visage IA avec l’option “Generate AI presenter” : soit un visage IA déjà créé par D-ID, soit un visage créé sur-mesure avec l’outil spécial de D-ID. Voici la sélection de visages IA déjà existants proposés :

Dans notre premier test, nous présentions en détail l’option de création de visage IA, qui était à l’époque plutôt mauvaise en terme de qualité.
Pour comparer avec la dernière version de la technologie, j’ai repris le prompt utilisé à l’époque : “A beautiful red-haired woman with blue eyes, fine features and deep cheeks.” Et six mois plus tard, le résultat a été encore très décevant :

En faisant d’autres essais avec d’autres prompts, on obtient néanmoins des visages plus réalistes, mais qui ne sont pas exploitables pour ce test.
J’ai donc pris un visage généré avec une autre IA, Stable Diffusion, pour faire un premier essai de l’IA d’animation de visage de D-ID. Voici l’image utilisée :

Voici le visage IA importé dans l’interface de D-ID, avant que je lance l’animation :

Sur le côté droit, un menu permet de rentrer le texte que l’on veut faire dire par l’IA, de choisir la langue, le timbre de voix parmi plusieurs options (dont certaines pour faire une voix d’enfant), et enfin le style (lorsque c’est possible) : “triste” ou “enjoué”.
Pour ce premier essai, j’ai utilisé la voix “Denise”, avec le ton enjoué (Cheerful), avec le texte suivant :
“Hello les lecteurs de Ariel World ! J’espère que tout le monde va bien ?
Je fais ce petit test pour vous montrer comme je parle bien grâce à l’intelligence artificielle de D-ID.
Qu’en pensez-vous les copains ?
Gros bisous.”
Et voici le résultat obtenu (qui m’a couté 1 crédit sur les 20 disponibles) :
Comme vous pouvez le voir, le résultat est vraiment impressionnant, même si le personnage sur la vidéo ne bouge finalement qu’assez peu. Le mouvement est vraiment centré sur le visage, qui est animé avec beaucoup de naturel. La synchronisation entre le mouvement des lèvres et les mots est aussi très bonne. Les respirations entre les phrases sont un peu longues, et manquent de naturel, mais c’est plutôt une choix intéressant, qui peut être coupé au montage : là où créer des temps entre deux phrases est très difficile à faire en post-prod.
Enfin, notez que ce filigrane D-ID sur la version gratuite a été récemment mis en place par l’entreprise, et que s’il est possible de l’atténuer avec d’autres outils tiers, il faudra passer par la version payante pour avoir votre vidéo sans.
Faire parler une image IA
D-ID est donc un très bon outil pour faire parler une photo, ou une image réaliste générée avec une IA. Mais qu’en est-il si on veut utiliser une image IA d’un autre style.
Voici un second test avec cette image, générée elle aussi avec Stable Diffusion :

Le visage légèrement de côté, et le jeu de couleurs difficile, peuvent être difficile à gérer pour D-ID, et le résultat obtenu sera intéressant à juger. J’ai repris les mêmes éléments vocaux que pour le premier test.
Voici le résultat obtenu (toujours pour 1 crédit) :
Comme vous pouvez le voir, la perte de qualité est plus sensible, et l’image prend un ton granuleux (qui est renforcé visuellement par le filigrane, mais qui se voit très bien même sans). Pour le reste, la qualité reste au rendez-vous : mouvement du visage, bonne synchronisation bouche-texte. On note quand même que quand D-ID tente de trop faire passer le visage de face, l’animation de la bouche ne suit pas bien, et provoque un rictus très disgracieux sur le visage.
Voici un troisième essai avec le visage suivant, également généré avec une IA :

Et voici le résultat obtenu, avec le même texte mais une nouvelle voix, Celeste, et un style neutre, cette fois :
À nouveau, on voit que D-ID provoque une perte de qualité, même si le jeu de couleurs plus simple de cette troisième image testée permet de moins la sentir. Le mouvement est toujours aussi fluide et qualitatif, même si là encore les oscillations du visage sur les côtés provoquent des grimaces étranges sur la bouche du visage animée par l’IA.
Un quatrième test, avec une image type manga (générée avec la V1 de Ideogram) :
Si la qualité laisse vraiment à désirer, on voit quand même que D-ID peut animer des visages même quand ils n’ont pas un style réaliste du tout, comme ici avec cette fille qui semble venue d’un manga japonais.
Enfin, un dernier essai, avec une image générée avec une IA (toujours), à qui cette fois je fais dire des choses plus sombres, avec une autre voix :
Une IA pour faire parler une star
Pour s’amuser, on pourrait être tenté d’utiliser une IA pour faire parler une star ou une personnalité publique connue, et lui faire dire des choses.
Mais D-ID a mis en place un détecteur de visage, qui arrive très bien à voir lorsqu’une photo d’une personnalité célèbre (acteur, politique, etc) est importée dans sa plateforme. Et D-ID interdit ce type d’usage. Même une image pas très réaliste de Elon Musk nageant dans une piscine de pièces d’or (faite avec Ideogram), tel l’oncle Picsou, n’a pas passé le filtre.
Comment créer un deepfake avec l’IA de D-ID
Il est quand même possible de contourner l’outil de détection de la plateforme, comme ici avec cette image de la ministre Aurore Bergé, que j’ai ensuite utilisé pour lui faire faire une incroyable déclaration d’amour à Emmanuel Macron :
Et les plus habiles pourront utiliser des outils comme Eleven Labs (ou Coqui AI) pour recréer la piste audio de cette vidéo avec la voix de la ministre, pour créer un deepfake ultra-crédible.
Une utilisation de l’IA aussi illégale que fortement déconseillée.
Une IA pour faire parler son animal de compagnie
Après plusieurs tentatives pour utiliser D-ID avec des vraies photos de chats et de chiens, il apparait que D-ID ne veut pas animer des images d’animaux. On ne peut donc pas utiliser cette IA pour faire parler une photo de “Triomphe”, le chihuahua de votre arrière grand-mère. Vous pouvez cependant essayer quand même, cela ne coûte rien.
Points-clefs à retenir sur D-ID
Après ces différents essais et tests, on voit donc que l’IA de D-ID permet d’animer des visages, des photos, et de créer des vidéos où le personnage dit ce que l’on veut, en français (mais aussi dans d’autres langues).
Voici plusieurs points à retenir aussi :
- D-ID va avoir tendance à dégrader la qualité de l’image (et du visage) pour l’animer, donc il est important d’utiliser une image de base de très bonne qualité. Ne pas hésiter à faire un upgrade de la qualité de cette image avec un autre outil IA avant.
- Les mouvements du visage sont très limités, et l’IA ne gère pas bien les rotations, même légères : il faut donc bien faire attention à utiliser une image vraiment de face, pas de profil ou de trois quart.
- D-ID anime très bien le visage et la tête, mais ne fait pas bouger le reste de l’image. Donc il vaut mieux ne pas prendre des plans trop large pour ne pas que l’animation ait un aspect étrange.
Mais malgré ces quelques petits points négatifs, D-ID est vraiment la meilleure option actuelle lorsqu’on cherche une IA pour faire parler un visage sur une image ou une photo.
D’autres outils existent, comme Hitpaw et Unboring de Reface, qui sont beaucoup moins performants que D-ID. Vous pouvez retrouver des tests d’autre outils d’intelligence artificielle en parcourant notre tag dédié : “test“.
Pour en savoir plus et essayer D-ID : https://www.d-id.com/