Stable Diffusion 2.0, un AI capabil să sintetizeze și să modifice imagini

Difuziune stabilă 2.0

Imagine generată cu Stable Diffusion 2.0

recent Stabilitate AI, dezvăluită printr-o postare pe blog a doua ediție a sistemului învățarea mașinii Difuzie stabilă, care este capabil să sintetizeze și să modifice imagini pe baza unui șablon sugerat sau a unei descriere a textului în limbaj natural.

Difuzia stabilă este un model de învățare automată dezvoltat de Stability AI pentru a genera imagini digitale de înaltă calitate din descrierile în limbaj natural. Modelul poate fi utilizat pentru diferite sarcini, cum ar fi generarea de traduceri imagine-la-imagine ghidate de text și îmbunătățirea imaginii.

Spre deosebire de modelele concurente precum DALL-E, Stable Diffusion este open source1 și nu limitează artificial imaginile pe care le produce. Criticii și-au exprimat îngrijorarea cu privire la etica AI, susținând că modelul poate fi folosit pentru a crea deepfake.

Echipa dinamică formată din Robin Rombach (Stability AI) și Patrick Esser (Runway ML) de la CompVis Group de la LMU München, condusă de Prof. Dr. Björn Ommer, a condus lansarea inițială a Stable Diffusion V1. Ei s-au bazat pe munca lor anterioară de laborator cu modele de difuzie latentă și au câștigat sprijin critic din partea LAION și Eleuther AI. Puteți citi mai multe despre versiunea originală a Stable Diffusion V1 în postarea noastră anterioară de blog. Robin conduce acum efortul împreună cu Katherine Crowson la Stability AI pentru a crea următoarea generație de modele media cu echipa noastră mai largă.

Stable Diffusion 2.0 oferă o serie de îmbunătățiri și caracteristici grozave în comparație cu versiunea originală V1.

Principalele știri despre Stable Diffusion 2.0

În această nouă versiune care este prezentată a fost creat un nou model de sinteză a imaginilor bazat pe descrierea textului „SD2.0-v”, care acceptă generarea de imagini cu o rezoluție de 768×768. Noul model a fost antrenat folosind colecția LAION-5B de 5850 miliarde de imagini cu descrieri text.

Modelul folosește același set de parametri ca modelul Stable Diffusion 1.5, dar diferă prin trecerea la utilizarea unui encoder OpenCLIP-ViT/H fundamental diferit, care a făcut posibilă îmbunătățirea semnificativă a calității imaginilor rezultate.

A a fost pregătit versiune simplificată a bazei SD2.0, instruit pe imagini de 256×256 folosind modelul clasic de predicție a zgomotului și susținând generarea de imagini cu o rezoluție de 512×512.

Pe lângă aceasta, se subliniază și faptul că este asigurată posibilitatea utilizării tehnologiei de supraeşantionare (Super Resolution) pentru a crește rezoluția imaginii originale fără a reduce calitatea, folosind scalarea spațială și algoritmi de reconstrucție a detaliilor.

Dintre celelalte schimbări care se deosebesc de această nouă versiune:

  • Modelul de procesare a imaginii furnizat (SD20-upscaler) acceptă mărirea de 4x, permițând generarea de imagini cu o rezoluție de 2048×2048.
  • Stable Diffusion 2.0 include, de asemenea, un model Upscaler Diffusion care îmbunătățește rezoluția imaginii cu un factor de 4.
  • Este propus modelul SD2.0-depth2img, care ia în considerare adâncimea și aranjarea spațială a obiectelor. Sistemul MiDaS este utilizat pentru a estima adâncimea monoculară.
  • Nou model de vopsea interioară bazată pe text, reglat fin pe noua bază Stable Diffusion 2.0 text-to-image
  • Modelul vă permite să sintetizați imagini noi folosind o altă imagine ca șablon, care poate fi radical diferită de originalul, dar păstrează compoziția generală și profunzimea. De exemplu, puteți folosi poziția unei persoane dintr-o fotografie pentru a forma un alt personaj în aceeași ipostază.
  • Model actualizat pentru modificarea imaginilor: SD 2.0-inpainting, care permite utilizarea indicațiilor de text pentru a înlocui și schimba părți ale imaginii.
  • Modelele au fost optimizate pentru a fi utilizate pe sistemele mainstream cu un GPU.

În cele din urmă da sunteți interesat să aflați mai multe despre asta, trebuie să știți că codul pentru instrumentele de formare și imagistica rețelei neuronale este scris în Python folosind cadrul PyTorch și eliberat sub licența MIT.

Modelele pre-antrenate sunt deschise sub licența permisivă Creative ML OpenRAIL-M, care permite utilizarea comercială.

Fuente: https://stability.ai


Lasă comentariul tău

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *

*

*

  1. Responsabil pentru date: Miguel Ángel Gatón
  2. Scopul datelor: Control SPAM, gestionarea comentariilor.
  3. Legitimare: consimțământul dvs.
  4. Comunicarea datelor: datele nu vor fi comunicate terților decât prin obligație legală.
  5. Stocarea datelor: bază de date găzduită de Occentus Networks (UE)
  6. Drepturi: în orice moment vă puteți limita, recupera și șterge informațiile.