Meta continue de proposer des avancées importantes et open source dans le domaine de l’intelligence artificielle, cette fois dans la musique, avec AudioCraft. Une technologie IA composée de trois modèles distincts et complémentaires.
Auteur / Autrice :
Meta dévoile AudioCraft, une IA pour créer de la musique
Meta Platforms a présenté mercredi 2 août 2023 son outil d’intelligence artificielle open-source AudioCraft :
“La famille de modèles AudioCraft est capable de produire un son de haute qualité avec une cohérence à long terme, et il est facile d’interagir avec elle via une interface naturelle. Avec AudioCraft, nous simplifions la conception globale des modèles génératifs pour l’audio par rapport aux travaux antérieurs sur le terrain – donnant aux gens la recette complète pour jouer avec les modèles existants que Meta a développés au cours des dernières années tout en leur permettant de repousser les limites et développer leurs propres modèles.”

Trois modèles pour créer de la musique, mais aussi des sons
L’outil d’IA est fourni avec trois modèles :
- MusicGen a été formé avec de la musique appartenant à Meta et sous licence spécifique, et le modèle génère de la musique à partir d’entrées utilisateur textuelles. MusicGen a été formé sur environ 400 000 enregistrements associés à une description textuelle et des métadonnées (indispensables pour construire un référentiel utilisable par une IA), représentant 20 000 heures de musique appartenant à Meta ou sous licence spécifique.
- EnCodec, le “codec audio neuronal”, permet de générer de la musique de meilleure qualité avec moins d’artefacts, et donne un nouveau “vocabulaire” fixe pour les échantillons de musique.
- AudioGen a été formé sur des effets sonores publics, et génère de l’audio (pas de la musique donc) à partir d’entrées texte, pour “générer des sons environnementaux et des effets sonores comme l’aboiement d’un chien, le klaxon d’une voiture, ou des pas sur un plancher en bois”.

Dans cet article dédié, Meta propose des exemples qui sont assez convaincants, en proposant les invites de texte utilisées : “des sirènes et un moteur bourdonnant approchent et passent”, “morceau de danse pop avec des mélodies accrocheuses, des percussions tropicales et des rythmes entraînants, parfait pour la plage”.
Une intelligence artificielle mise à disposition en open source
Meta rappelle aussi l’importance de l’open source :
“L’innovation responsable ne peut pas se produire dans l’isolement. L’open source de nos recherches et des modèles qui en résultent permet de garantir que tout le monde a un accès égal.”
En conséquence, Meta propose ces modèles en open source, ce qui va permettre aux chercheurs et aux utilisateurs de “former leurs propres modèles avec leurs propres ensembles de données”, et ainsi “aider à faire progresser le domaine de l’audio et de la musique générés par l’IA”.
Pour aller plus loin :