La start-up Stability AI présente déjà la V2 de Stable Diffusion !
Auteur / Autrice :
Stable Diffusion V1, un générateur déjà très fort
En août 2022, la start-up Stability AI dévoilait la toute première version de son générateur d’images numériques photoréalistes, baptisé “Stable Diffusion”. Il s’agit d’un générateur basé sur l’intelligence artificielle, et utilisant la mécanique texte-image, le fonctionnement le plus populaire pour l’instant.
Son nom est tiré de son fonctionnement, la réalisation par “diffusion”, où l’image est générée progressivement, d’abord comme un bruit (un flou) qui va ensuite être amélioré progressivement, jusqu’au rendu final. Son fonctionnement repose sur la technologie “Latent Diffusion Model” (LDM).
A l’instar d’autres systèmes d’IA déjà très connus, comme DALL-E 2 d’Open AI (qui nous a servi a générer notre actuel PP Twitter), MidJourney ou encore Designer (Microsoft), Stable Diffusion propose des résultats bluffants de réalisme, mais où subsistent encore (et heureusement ?) de nombreux artefacts d’une création artificielle. Au lancement de sa V1, la start-up promettait que Stable Diffusion permettrait “à des milliards de personnes de créer des œuvres d’art époustouflantes en quelques secondes“.
Pour cela, Stable Diffusion avait été entrainé sur la base LAION-Aesthetics, une sous-base de LAION 5B, une base de données d’images auxquelles sont liées du texte, et des informations : largeur, hauteur, URL, nom, et le plus souvent la description de l’image elle-même, partie la plus intéressante pour enrichir l’IA.
“5B” signifie 5 billions, une référence au nombre d’images de la base, qui en compte en fait 5,85 milliards, dont 2,3 milliards avec le texte en anglais, 2,2 ayant des textes dans plus d’une centaine de langues différentes, et 1 milliard ayant du texte non-attribuable à une langue, essentiellement car le seul texte est le nom du fichier lui-même.
La base LAION-Aesthetics V2 a été conçue pour n’être composée que d’images “belles”, d’après un apprentissage de classification fait par une IA, LAION-Aesthetics_Predictor V2, via la technologie CLIP (pour Contrastive Language–Image Pre-training) développée par Open AI. Predictor V2 a permis de créer des sous-bases de LAION 5B, en fonction de la note qu’il a attribué aux images. Il en existe 6 en tout, et la plus grosse d’entre elles compte 1,2 milliards de paires image-texte avec des scores esthétiques de 4,5 et plus.
La plus petite ne compte que 625 000 paires image-texte, avec des scores de 6,5 et plus. Pour être précis, la base LAION-Aesthetics V2 qu’a utilisé Stable Diffusion V1 était la deuxième sous-base la plus qualitative, comprenant les paires image-texte notées 6,25 et plus, pour un total de 3 millions de fichiers.
Fort de cette base à la fois volumineuse et de qualité, et d’une technologie innovante et performante (basée sur une architecture se voulant légère), Stability AI faisait tester son générateur à 10 000 bêta-testeurs, qui ont créé en tout jusqu’à 1,7 million d’images par jour.
A son lancement Stable Diffusion est un succès, autant technique que populaire, et Stability AI peut s’enorgueillir d’avoir atteint une popularité aussi rapide que massive sur la plateforme GitHub, devant des projets à la renommée mondiale, comme Ethereum et Bitcoin.

Stability AI lance (déjà) Stable Diffusion 2.0
Trois mois seulement ont passé depuis le lancement de la première version de Stable Diffusion, et Stability AI introduit déjà la version 2.0 de son générateur d’image. Stable Diffusion 2.0 permet de créer des images ayant des résolutions par défaut de 512×512 pixels et de 768×768 pixels.
Une version boostée premièrement par l’introduction de l’usage d’un nouveau système CLIP, développé conjointement par LAION et Stability AI, nommé OpenCLIP, et censé améliorer “considérablement la qualité des images générées par rapport aux versions V1 précédentes”. Egalement dans l’optique d’améliorer la qualité des images produites, Stable Diffusion 2.0 utilise la technologie “Upscaler Diffusion” qui améliore la résolution finale des images. Dans son communiqué, l’entreprise parle d’un facteur 4x.
Voici un exemple, mettant à l’échelle une image générée à basse résolution (128×128) vers une image à plus haute résolution (512×512). Toujours d’après la start-up, Stable Diffusion 2.0 peut générer des images avec des résolutions de 2048×2048, voire au-delà.

Stable Diffusion 2.0 introduit aussi l’usage d’une nouvelle technologie dédiée à la gestion de la profondeur dans une image, et sa réutilisation : “depth2img”. Stability AI explique que Depth2img déduit la profondeur d’une image, puis “génère de nouvelles images en utilisant à la fois le texte et les informations de profondeur“. L’idée est de pouvoir faciliter la réutilisation d’un modèle de structure, à des fins de diversifications simplifiés. Voici les deux exemples proposés par la start-up, avec une image fixe d’abord, puis une animation au résultat bluffant.


Dans la même optique de réutilisation et de déclinaison d’une image-socle, une technologie “d’inpainting updatée” vient permettre “d’intervertir très facilement des parties d’une image, de manière intelligente et rapide“. Voici l’exemple, là encore bluffant :

Enfin, toujours dans l’optique de proposer une technologie à la fois ultra-performante, et légère techniquement, cette version 2.0 de Stable Diffusion est designée pour pouvoir fonctionner avec un seul (puissant) GPU !
Par ailleurs, si vous cherchez à travailler dans le secteur, Stability AI indique recruter des chercheurs et des ingénieurs “enthousiastes à l’idée de travailler sur la prochaine génération de modèles d’IA générative open source” ! Alors, si vous envisagez de rejoindre Stability AI, vous pouvez les contacter à l’adresse careers@stability.ai ! Basée à Londres, Stability Ai a levé 101 millions de dollars en octobre 2022 !