Stable Diffusion 2.0, una AI capaç de sintetitzar i modificar imatges

Difusió estable 2.0

Imatge generada amb Stable Diffusion 2.0

fa poc Stability AI, va donar a conèixer mitjançant una publicació de bloc la segona edició del sistema de aprenentatge automàtic Difusió estable, que és capaç de sintetitzar i modificar imatges en funció duna plantilla suggerida o una descripció de text en llenguatge natural.

Stable Diffusion és un model daprenentatge automàtic desenvolupat per Stability AI per generar imatges digitals d´alta qualitat a partir de descripcions en llenguatge natural. El model es pot fer servir per a diferents tasques, com la generació de traduccions d'imatge a imatge guiades per missatges de text i la millora d'imatges.

A diferència de models de la competència com DALL-E, Stable Diffusion és de codi obert1 i no limita artificialment les imatges que produeix. Els crítics han expressat la seva preocupació per lʻètica de la IA, afirmant que el model es pot utilitzar per crear deepfakes.

L'equip dinàmic de Robin Rombach (Stability AI) i Patrick Esser (Runway ML) del CompVis Group a LMU Munic encapçalat pel Prof. Dr. Björn Ommer, va dirigir el llançament original de Stable Diffusion V1. Es van basar en el seu treball anterior del laboratori amb models de difusió latent i van obtenir el suport fonamental de LAION i Eleuther AI. Podeu llegir més sobre el llançament original de Stable Diffusion V1 a la nostra publicació de bloc anterior . Robin ara lidera l'esforç amb Katherine Crowson a Stability AI per crear la propera generació de models de mitjans amb el nostre equip més ampli.

Stable Diffusion 2.0 ofereix una sèrie de grans millores i característiques en comparació de la versió V1 original

Principals novetats de Stable Diffusion 2.0

En aquesta nova versió que es presenta s'ha creat un nou model de síntesi d'imatges basat en la descripció de text SD2.0-v, que suporta la generació d'imatges amb una resolució de 768×768. El nou model es va entrenar utilitzant la col·lecció LAION-5B de 5850 milions d'imatges amb descripcions de text.

El model utilitza el mateix conjunt de paràmetres que el model Stable Diffusion 1.5, però es diferencia per la transició a l'ús d'un codificador OpenCLIP-ViT/H fonamentalment diferent, fet que va fer possible millorar significativament la qualitat de les imatges resultants.

S'ha preparat una versió simplificada de SD2.0-base, entrenada en imatges de 256×256 usant el model clàssic de predicció de soroll i suportant la generació d'imatges amb una resolució de 512×512.

A més, també es destaca que es brinda la possibilitat d'utilitzar la tecnologia de supermostreig (Super Resolution) per augmentar la resolució de la imatge original sense reduir la qualitat, utilitzant algoritmes d'escalat espacial i reconstrucció de detalls.

Dels altres canvis que es destaquen d'aquesta nova versió:

  • El model de processament d'imatges proporcionat (SD20-upscaler) admet l'ampliació 4x, cosa que permet generar imatges amb una resolució de 2048×2048.
  • Stable Diffusion 2.0 també inclou un model Upscaler Diffusion que millora la resolució de les imatges en un factor de 4.
  • Es proposa el model SD2.0-depth2img, que té en compte la profunditat i la disposició espacial dels objectes. Per estimar la profunditat monocular s'utilitza el sistema MiDaS.
  • Nou model de pintura interior guiat per text, ajustat amb precisió a la nova base de text a imatge Stable Diffusion 2.0
  • El model permet sintetitzar noves imatges utilitzant una altra imatge com a plantilla, que pot ser radicalment diferent de l'original, però conserva la composició i la profunditat general. Per exemple, podeu utilitzar el posat d'una persona en una foto per formar un altre personatge a la mateixa posició.
  • Model actualitzat per modificar imatges: SD 2.0-inpainting, que permet utilitzar suggeriments de text per reemplaçar i canviar parts de la imatge.
  • Els models s'han optimitzat per utilitzar-los en sistemes convencionals amb una GPU.

Finalment sí estàs interessat a poder conèixer més sobre això, heu de saber que el codi de les eines per a l'entrenament de xarxes neuronals i la generació d'imatges està escrit en Python utilitzant el marc PyTorch i publicat sota la llicència MIT.

Els models ja entrenats estan oberts sota la llicència permissiva Creative ML OpenRAIL-M, que en permet l'ús comercial.

font: https://stability.ai


Deixa el teu comentari

La seva adreça de correu electrònic no es publicarà. Els camps obligatoris estan marcats amb *

*

*

  1. Responsable de les dades: Miguel Ángel Gatón
  2. Finalitat de les dades: Controlar l'SPAM, gestió de comentaris.
  3. Legitimació: El teu consentiment
  4. Comunicació de les dades: No es comunicaran les dades a tercers excepte per obligació legal.
  5. Emmagatzematge de les dades: Base de dades allotjada en Occentus Networks (UE)
  6. Drets: En qualsevol moment pots limitar, recuperar i esborrar la teva informació.