Stable Diffusion 2.0, tekoäly, joka pystyy syntetisoimaan ja muokkaamaan kuvia

Vakaa diffuusio 2.0

Kuva luotu Stable Diffusion 2.0:lla

äskettäin Stability AI, paljastettu blogipostauksen kautta järjestelmän toinen painos koneoppiminen Vakaa diffuusio, joka pystyy syntetisoimaan ja muokkaamaan kuvia ehdotetun mallin tai luonnollisen kielen tekstikuvauksen perusteella.

Vakaa diffuusio on koneoppimismalli kehittänyt Stability AI luoda korkealaatuisia digitaalisia kuvia luonnollisen kielen kuvauksista. Mallia voidaan käyttää erilaisiin tehtäviin, kuten tekstiohjattujen kuvasta kuvaksi -käännösten tuottamiseen ja kuvan parantamiseen.

Toisin kuin kilpailevat mallit, kuten DALL-E, Stable Diffusion on avoimen lähdekoodin1, eikä se rajoita keinotekoisesti tuottamiaan kuvia. Kriitikot ovat herättäneet huolta tekoälyn eettisyydestä väittäen, että mallia voidaan käyttää syväväärennösten luomiseen.

Robin Rombachin (Stability AI) ja Patrick Esserin (Runway ML) dynaaminen tiimi LMU Münchenin CompVis-ryhmästä, jota johtaa professori tohtori Björn Ommer, johti Stable Diffusion V1:n alkuperäistä julkaisua. He rakensivat aiemman laboratoriotyönsä pohjalta latenttien diffuusiomallien avulla ja saivat kriittistä tukea LAIONilta ja Eleuther AI:ltä. Voit lukea lisää Stable Diffusion V1:n alkuperäisestä julkaisusta edellisestä blogikirjoituksestamme. Robin johtaa nyt työtä Katherine Crowsonin kanssa Stability AI:ssä luodakseen seuraavan sukupolven mediamalleja laajemman tiimimme kanssa.

Stable Diffusion 2.0 tarjoaa useita hienoja parannuksia ja ominaisuuksia verrattuna alkuperäiseen V1-versioon.

Tärkeimmät uutiset Stable Diffusion 2.0:sta

Tässä uudessa versiossa, joka on esitetty on luotu uusi tekstikuvaukseen perustuva kuvasynteesimalli "SD2.0-v", joka tukee kuvien luomista resoluutiolla 768 × 768. Uutta mallia koulutettiin LAION-5B-kokoelman avulla, joka sisältää 5850 miljardia tekstikuvauksellista kuvaa.

Malli käyttää samoja parametrijoukkoa kuin Stable Diffusion 1.5 -malli, mutta eroaa siirtymisestä olennaisesti erilaiseen OpenCLIP-ViT/H-kooderin käyttöön, mikä mahdollisti syntyvien kuvien laadun parantamisen merkittävästi.

A on valmisteltu yksinkertaistettu versio SD2.0-kannasta, joka on koulutettu 256 × 256 -kuviin käyttämällä klassista kohinan ennustemallia ja tukemaan kuvien luomista resoluutiolla 512 × 512.

Tämän lisäksi korostetaan myös sitä tarjotaan mahdollisuus käyttää supersampling-tekniikkaa (Super Resolution) parantaa alkuperäisen kuvan resoluutiota laadun heikkenemättä käyttämällä spatiaalista skaalaus- ja yksityiskohtien rekonstruointialgoritmeja.

Muista muutoksista jotka erottuvat uudesta versiosta:

  • Mukana toimitettu kuvankäsittelymalli (SD20-upscaler) tukee 4-kertaista suurennusta, mikä mahdollistaa kuvien luomisen resoluutiolla 2048×2048.
  • Stable Diffusion 2.0 sisältää myös Upscaler Diffusion -mallin, joka parantaa kuvan resoluutiota kertoimella 4.
  • Malliksi ehdotetaan SD2.0-depth2img, joka ottaa huomioon kohteiden syvyyden ja tilajärjestelyn. MiDaS-järjestelmää käytetään monokulaarisen syvyyden arvioimiseen.
  • Uusi tekstiohjattu sisämaalimalli, hienosäädetty uuteen Stable Diffusion 2.0 tekstistä kuvaksi -pohjaan
  • Mallin avulla voit syntetisoida uusia kuvia käyttämällä mallina toista kuvaa, joka voi olla radikaalisti erilainen kuin alkuperäinen, mutta säilyttää kokonaiskoostumuksen ja syvyyden. Voit esimerkiksi käyttää valokuvassa olevan henkilön asentoa muodostaaksesi toisen hahmon samassa asennossa.
  • Päivitetty malli kuvien muokkaamiseen: SD 2.0-inpainting, joka mahdollistaa tekstivihjeiden avulla kuvan osien korvaamisen ja muuttamisen.
  • Mallit on optimoitu käytettäviksi yleisissä järjestelmissä, joissa on GPU.

Lopuksi kyllä olet kiinnostunut tietämään siitä lisää, sinun tulee tietää, että neuroverkon koulutus- ja kuvantamistyökalujen koodi on kirjoitettu Pythonissa PyTorch-kehyksen avulla ja julkaistu MIT-lisenssillä.

Esikoulutetut mallit ovat avoinna Creative ML OpenRAIL-M -lisenssillä, joka sallii kaupallisen käytön.

lähde: https://stability.ai


Ole ensimmäinen kommentti

Jätä kommentti

Sähköpostiosoitettasi ei julkaista. Pakolliset kentät on merkitty *

*

*

  1. Vastuussa tiedoista: Miguel Ángel Gatón
  2. Tietojen tarkoitus: Roskapostin hallinta, kommenttien hallinta.
  3. Laillistaminen: Suostumuksesi
  4. Tietojen välittäminen: Tietoja ei luovuteta kolmansille osapuolille muutoin kuin lain nojalla.
  5. Tietojen varastointi: Occentus Networks (EU) isännöi tietokantaa
  6. Oikeudet: Voit milloin tahansa rajoittaa, palauttaa ja poistaa tietojasi.