En un mot: Stable Diffusion est un exemple phénoménal de combien une image vaut plus que mille mots. En fait, en supprimant complètement l’invite de texte de génération d’image, l’IA visuelle pourrait être utilisée pour obtenir un fichier image hautement compressé et de haute qualité.
Stable Diffusion est un algorithme d’apprentissage automatique capable de générer des images étrangement complexes et (quelque peu) crédibles simplement à partir de l’interprétation de descriptions en langage naturel. Le modèle d’IA text-to-image est incroyablement populaire parmi les utilisateurs malgré le fait que les communautés d’art en ligne ont commencé à rejeter les images basées sur l’IA.
En plus d’être un exemple controversé d’expression visuelle assistée par machine, Stable Diffusion pourrait avoir un avenir en tant qu’algorithme de compression d’image puissant. Matthias Bühlmann, un “ingénieur logiciel, entrepreneur, inventeur et philosophe” autoproclamé de Suisse, récemment exploré l’opportunité d’utiliser l’algorithme d’apprentissage automatique pour un type complètement différent de manipulation de données graphiques.
Dans son modèle traditionnel, Stable Diffusion 1.4 peut générer des illustrations grâce à sa capacité acquise à faire des associations statistiques pertinentes entre les images et les mots associés. L’algorithme a été formé en fournissant des millions d’images Internet au “monstre IA”, et il a besoin d’une base de données de 4 Go qui contient des représentations mathématiques compressées et plus petites des images précédemment analysées qui peuvent être extraites sous forme de très petites images lorsqu’elles sont décodées.
Dans l’expérience de Bühlmann, l’invite de texte a été complètement contournée pour faire fonctionner le processus d’encodage d’image de Stable Diffusion. Ledit processus prend les petites images sources (512×512 pixels) et les transforme en une représentation encore plus petite (64×64). Les images compressées sont ensuite extraites à leur résolution d’origine, avec des résultats assez intéressants.
Le développeur a souligné que les images compressées en SD avaient une “qualité d’image largement supérieure” à une taille de fichier plus petite par rapport aux formats JPG ou WebP. Les images de diffusion stable étaient plus petites et présentaient des détails plus définis, montrant moins d’artefacts de compression que ceux générés par les algorithmes de compression standard.
Stable Diffusion pourrait-il avoir un avenir en tant qu’algorithme de meilleure qualité pour la compression avec perte d’images sur Internet et ailleurs ? La méthode utilisée par Bühlmann (pour laquelle il existe un exemple de code en ligne) a encore quelques limitations, car il ne fonctionne pas si bien avec du texte ou des visages et il peut parfois générer des détails supplémentaires qui n’étaient pas présents dans l’image source. Le besoin d’une base de données de 4 Go et le processus de décodage fastidieux constituent également un fardeau assez important.