Stable Diffusion 2.0, une IA capable de synthétiser et de modifier des images

Diffusion stable 2.0

Image générée avec Stable Diffusion 2.0

Récemment Stability AI, dévoilé via un article de blog la deuxième édition du système apprentissage automatique Diffusion stable, qui est capable de synthétiser et de modifier des images en fonction d'un modèle suggéré ou d'une description textuelle en langage naturel.

La diffusion stable est un modèle d'apprentissage automatique développé par Stability AI pour générer des images numériques de haute qualité à partir de descriptions en langage naturel. Le modèle peut être utilisé pour différentes tâches, telles que la génération de traductions d'image à image guidées par le texte et l'amélioration de l'image.

Contrairement aux modèles concurrents comme DALL-E, Stable Diffusion est open source1 et ne limite pas artificiellement les images qu'il produit. Les critiques ont soulevé des inquiétudes quant à l'éthique de l'IA, affirmant que le modèle peut être utilisé pour créer des deepfakes.

L'équipe dynamique de Robin Rombach (Stability AI) et Patrick Esser (Runway ML) du groupe CompVis du LMU Munich, dirigée par le professeur Björn Ommer, a dirigé la version originale de Stable Diffusion V1. Ils se sont appuyés sur leurs travaux de laboratoire précédents avec des modèles de diffusion latente et ont obtenu le soutien essentiel de LAION et d'Eleuther AI. Vous pouvez en savoir plus sur la version originale de Stable Diffusion V1 dans notre article de blog précédent. Robin dirige maintenant l'effort avec Katherine Crowson de Stability AI pour créer la prochaine génération de modèles médiatiques avec notre équipe élargie.

Stable Diffusion 2.0 offre un certain nombre d'améliorations et de fonctionnalités intéressantes par rapport à la version V1 d'origine.

Principales actualités de Stable Diffusion 2.0

Dans cette nouvelle version qui est présentée un nouveau modèle de synthèse d'images basé sur la description textuelle a été créé "SD2.0-v", qui prend en charge la génération d'images avec une résolution de 768 × 768. Le nouveau modèle a été formé à l'aide de la collection LAION-5B de 5850 milliards d'images avec des descriptions textuelles.

Le modèle utilise le même ensemble de paramètres que le modèle Stable Diffusion 1.5, mais diffère par le passage à l'utilisation d'un encodeur OpenCLIP-ViT/H fondamentalement différent, ce qui a permis d'améliorer considérablement la qualité des images résultantes.

Un a été préparé version simplifiée de la base SD2.0, entraînés sur des images 256×256 en utilisant le modèle de prédiction de bruit classique et supportant la génération d'images avec une résolution de 512×512.

En plus de cela, il est également souligné que la possibilité d'utiliser la technologie de suréchantillonnage est fournie (Super Résolution) pour augmenter la résolution de l'image d'origine sans réduire la qualité, en utilisant des algorithmes de mise à l'échelle spatiale et de reconstruction des détails.

Des autres changements qui se démarquent de cette nouvelle version:

  • Le modèle de traitement d'image fourni (SD20-upscaler) prend en charge un grossissement 4x, permettant de générer des images avec une résolution de 2048 × 2048.
  • Stable Diffusion 2.0 inclut également un modèle Upscaler Diffusion qui améliore la résolution d'image d'un facteur 4.
  • Le modèle SD2.0-depth2img est proposé, qui prend en compte la profondeur et la disposition spatiale des objets. Le système MiDaS est utilisé pour estimer la profondeur monoculaire.
  • Nouveau modèle de peinture intérieure basé sur le texte, affiné sur la nouvelle base de texte à image Stable Diffusion 2.0
  • Le modèle vous permet de synthétiser de nouvelles images en utilisant une autre image comme modèle, qui peut être radicalement différente de l'original, mais conserve la composition et la profondeur globales. Par exemple, vous pouvez utiliser la pose d'une personne sur une photo pour former un autre personnage dans la même pose.
  • Modèle mis à jour pour modifier les images : SD 2.0-inpainting, qui permet d'utiliser des conseils de texte pour remplacer et modifier des parties de l'image.
  • Les modèles ont été optimisés pour une utilisation sur des systèmes grand public avec un GPU.

Enfin oui vous êtes intéressé à en savoir plus, vous devez savoir que le code des outils d'entraînement et d'imagerie du réseau neuronal est écrit en Python à l'aide du framework PyTorch et publié sous la licence MIT.

Les modèles pré-formés sont ouverts sous la licence permissive Creative ML OpenRAIL-M, qui permet une utilisation commerciale.

source: https://stability.ai


Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont marqués avec *

*

*

  1. Responsable des données: Miguel Ángel Gatón
  2. Finalité des données: Contrôle du SPAM, gestion des commentaires.
  3. Légitimation: votre consentement
  4. Communication des données: Les données ne seront pas communiquées à des tiers sauf obligation légale.
  5. Stockage des données: base de données hébergée par Occentus Networks (EU)
  6. Droits: à tout moment, vous pouvez limiter, récupérer et supprimer vos informations.