__


Une IA pour cloner la voix de n’importe qui : c’est la promesse de Coqui Studio.

D’où vient Coqui Studio et son projet Coqui AI

La première fois que j’ai entendu parler de Coqui AI, c’est avec un bref résumé lu par hasard sur un site dédié aux « outils numériques futuristes ». On y lisait beaucoup de mots-clefs, mais en même temps, il était dur de ne pas avoir immédiatement envie d’en démêler le vrai du faux :

« Coqui Studio est une plateforme de réalisation de voix par IA qui permet aux utilisateurs de générer, de cloner et de contrôler des voix d’IA pour les jeux vidéo, la post-production, le doublage et bien plus encore. Elle propose le clonage de voix, des voix d’IA génératives, des éditeurs avancés, une gestion de projet et des éditeurs de chronologie pour aider les utilisateurs à rationaliser leur flux de travail. »

Un alléchant programme à essayer. D’autant que la génération de texte vocal par une voix IA est une méthode que j’ai déjà largement utilisée via Capcut, le logiciel de montage vidéo de ByteDance.

Les fondateurs de Coqui sont des anciens de Mozilla : Eren Gölge, Josh Meyer, Kelly Davis et Reuben Morais. Ils sont les fondateurs du « Mozilla’s machine learning group ».

Ils sont partis du constat que « la technologie vocale était cloisonnée dans les grandes entreprises », en 2016. Ils ont commencé à développer des fonctions open source « STT » et « TTS », qu’ils ont amélioré avec des « milliers d’heures de données d’entraînement à la parole », appuyé par « une communauté dynamique, informée et solidaire s’est jointe à la cause et a accéléré les progrès de façon exponentielle ».

Quant au nom « Coqui Studio » ou « Coqui AI », il a une histoire : Coqui vient de l’espagnol « coquí », et se prononce comme « ko-kee ». Le coquí est une espèce de rainette originaire de Porto Rico et est considéré comme un symbole non officiel de l’île. Ils se sont inspirés de cette grenoille elle est connue pour « être petite mais avoir une voix forte et claire », et que ces caractéristiques rendent le coquí presque invisible, mais facile à entendre, « tout comme notre technologie ».

Coqui Studio a annoncé avoir levé 3,3 millions de dollars en mars 2022.

Comment Coqui AI fonctionne ?

Coqui AI est donc un logiciel qui permet d’utiliser des voix digitales pour créer des échantillons vocaux à partir de texte, sans avoir à recourir à un (encombrant) humain.

Comment ça fonctionne :

  • La console principale de Coqui Studio débute avec des exemples de projets présentant les voix et les fonctionnalités, qui s’intitule Personalities.
  • Chaque ligne est associée à une voix d’IA correspondante, qui peut être modifiée en cliquant sur le nom du personnage.
  • Les différentes lignes vous permettent d’entrer du texte (250 caractères maximum par ligne en version gratuite) et d’en affiner l’interprétation par la ou les voix IA de Coqui AI : on peut par exemple utiliser une palette d’émotions différentes, comme le bonheur, la surprise ou la tristesse, pour orienter la voix. On peut également jouer avec la vitesse de prononciation. En revanche, le texte lu doit être en anglais, car le texte en français donne des résultats atroces.
  • Un mode « Advanced Editor » permet même d’aller personnaliser mot par mot la voix de l’IA, avec une option « pitch » et une option « energy » : des options intéressantes mais destinés à des usages précis, qui n’ont pas besoin d’être considérées par la plupart des utilisateurs basiques.
  • Vous pouvez utiliser les voix AI fournies par Coqui ou créer les vôtres : Utilisez le bouton + pour créer vos propres voix personnalisées.
  • Le bouton de lecture permet d’écouter d’écouter les résultats, après quelques petites secondes de traitement entre chaque modification des paramètres
  • En bas des différentes lignes de voix, une interface d’agencement permet de faire se succéder les échantillons générés, sans option supplémentaire (à date, et dans la version gratuite).

Cloner des voix grâce à l’IA

Vous pouvez créer des voix personnalisées en utilisant 3 modes proposant le clonage de voix, la fusion de voix ou la fonction « Prompt-to-Voice » :

  • Voice Cloning : Le clonage vocal vous permet de télécharger un court enregistrement d’une voix afin de la cloner, soit directement avec le micro, soit en uploadant un fichier audio. Mais attention, le clonage de voix ne fonctionne qu’avec des voix anglophones avec un accent américain ! J’ai tenté de cloner la voix d’Emmanuel Macron avec son interview au 13h de TF1, et ça n’a pas du tout fonctionné.
  • Voice Fusion : La fusion de voix vous permet de mélanger deux voix existantes, en passant en douceur d’une voix jeune à une voix plus âgée, par exemple. Un mode intéressant puisqu’il permet de faire d’autres voix artificielles que les voix assez « laides » proposées de manière standard par Coqui AI.
  • Prompt-to-Voice : Prompt-to-Voice vous permet de créer des voix avec du texte, en décrivant le type de voix que vous souhaitez obtenir. Il est directment possible de tester la voix généra par le prompt, avant de vouloir la garder ou la changer. Le résultat peut être vraiment impressionnant, mais il peut aussi décevoir lorsqu’on essaye certaines nuances.

En conclusion, Coqui AI permet de faire des premiers essais de « voix IA » assez intéressants, avec plusieurs options qualitatives comme la lecture, la modulation de ton et de vitesse, et d’autres encore pour l’instant très légère, comme le clonage de voix.

Mais plus largement cette IA entrouvre un monde où tout un chacun pourra très facilement cloner la voix de n’importe qui, depuis une interface web. Un monde qui peut franchement faire peur, à l’heure où la mode des « vocaux » fait que nos voix sont désormais disséminées un peu partout.

« Mon Dieu, gardez-moi de mes amis ! Quant à mes ennemis, je m’en charge. »

Pour aller plus loin : https://coqui.ai/