Stable Diffusion 2.0, egy mesterséges intelligencia, amely képes szintetizálni és módosítani a képeket

Stabil diffúzió 2.0

A kép a Stable Diffusion 2.0-val készült

nemrég Stabilitási AI, bemutatva egy blogbejegyzésen keresztül a rendszer második kiadása gépi tanulás Stabil diffúzió, amely egy javasolt sablon vagy természetes nyelvű szövegleírás alapján képes képeket szintetizálni és módosítani.

A stabil diffúzió gépi tanulási modell a Stability AI fejlesztette ki természetes nyelvű leírásokból kiváló minőségű digitális képeket generálni. A modell különféle feladatokhoz használható, például szövegvezérelt kép-kép fordítás generálására és képjavításra.

A versenytárs modellekkel, például a DALL-E-vel ellentétben a Stable Diffusion nyílt forráskódú1, és nem korlátozza mesterségesen az általa előállított képeket. A kritikusok aggodalmukat fejezték ki a mesterséges intelligencia etikájával kapcsolatban, azt állítva, hogy a modell használható mélyhamisítások készítésére.

Robin Rombach (Stability AI) és Patrick Esser (Runway ML) dinamikus csapata az LMU Münchenben működő CompVis csoportból Prof. Dr. Björn Ommer vezetésével vezette a Stable Diffusion V1 eredeti kiadását. Korábbi labormunkájukra építettek látens diffúziós modellekkel, és kritikus támogatást kaptak a LAION-tól és az Eleuther AI-tól. A Stable Diffusion V1 eredeti kiadásáról korábbi blogbejegyzésünkben olvashat bővebben. Robin most Katherine Crowsonnal együtt vezeti a Stability AI-nél a médiamodellek következő generációjának létrehozására irányuló erőfeszítéseket szélesebb csapatunkkal.

A Stable Diffusion 2.0 számos nagyszerű fejlesztést és funkciót kínál az eredeti V1-es verzióhoz képest.

A Stable Diffusion 2.0 fő hírei

Ebben a bemutatott új verzióban szöveges leíráson alapuló új képszintézis modell készült „SD2.0-v”, amely támogatja a 768×768-as felbontású képek generálását. Az új modellt az 5 milliárd képből álló, szöveges leírásokat tartalmazó LAION-5850B gyűjtemény segítségével képezték ki.

A modell ugyanazt a paraméterkészletet használja, mint a Stable Diffusion 1.5 modell, de különbözik egy alapvetően eltérő OpenCLIP-ViT/H kódoló használatára való átállástól, amely lehetővé tette a kapott képek minőségének jelentős javítását.

Elkészült az A az SD2.0-alap egyszerűsített változata, 256×256-os képekre edzett a klasszikus zaj-előrejelző modell segítségével és támogatja az 512×512-es felbontású képek generálását.

Ezen kívül kiemelik azt is szupermintavételezési technológia alkalmazásának lehetősége biztosított (Szuper felbontás) az eredeti kép felbontásának növelése a minőség romlása nélkül, térbeli léptékezési és részletrekonstrukciós algoritmusok használatával.

A többi változás közül amelyek kiemelkednek ebből az új verzióból:

  • A mellékelt képfeldolgozó modell (SD20-upscaler) támogatja a 4x-es nagyítást, így 2048×2048-as felbontású képek készíthetők.
  • A Stable Diffusion 2.0 tartalmaz egy Upscaler Diffusion modellt is, amely négyszeresére javítja a képfelbontást.
  • Az SD2.0-depth2img modell javasolt, amely figyelembe veszi az objektumok mélységét és térbeli elrendezését. A MiDaS rendszert használják a monokuláris mélység becslésére.
  • Új szövegvezérelt belső fényezési modell, finomhangolás az új Stable Diffusion 2.0 szöveg-kép alapon
  • A modell lehetővé teszi új képek szintetizálását egy másik kép sablonként történő felhasználásával, amely gyökeresen eltérhet az eredetitől, de megőrzi az általános kompozíciót és mélységet. Használhatja például egy személy pózát a fényképen, hogy egy másik karaktert alakítson ki ugyanabban a pózban.
  • Frissített modell a képek módosításához: SD 2.0-festés, amely lehetővé teszi a szöveges tippek használatát a kép egyes részei cseréjéhez és megváltoztatásához.
  • A modelleket GPU-val rendelkező mainstream rendszereken való használatra optimalizálták.

Végül igen szeretne többet megtudni róla, tudnia kell, hogy a neurális hálózatok képzési és képalkotó eszközeinek kódja Python nyelven van megírva a PyTorch keretrendszer segítségével, és az MIT licenc alatt adják ki.

Az előre betanított modellek a Creative ML OpenRAIL-M engedélye alatt állnak rendelkezésre, amely lehetővé teszi a kereskedelmi felhasználást.

forrás: https://stability.ai


A cikk tartalma betartja a szerkesztői etika. A hiba bejelentéséhez kattintson a gombra itt.

Legyen Ön az első hozzászóló

Hagyja megjegyzését

E-mail címed nem kerül nyilvánosságra. Kötelező mezők vannak jelölve *

*

*

  1. Az adatokért felelős: Miguel Ángel Gatón
  2. Az adatok célja: A SPAM ellenőrzése, a megjegyzések kezelése.
  3. Legitimáció: Az Ön beleegyezése
  4. Az adatok közlése: Az adatokat csak jogi kötelezettség alapján továbbítjuk harmadik felekkel.
  5. Adattárolás: Az Occentus Networks (EU) által üzemeltetett adatbázis
  6. Jogok: Bármikor korlátozhatja, helyreállíthatja és törölheti adatait.