nemrég Stabilitási AI, bemutatva egy blogbejegyzésen keresztül a rendszer második kiadása gépi tanulás Stabil diffúzió, amely egy javasolt sablon vagy természetes nyelvű szövegleírás alapján képes képeket szintetizálni és módosítani.
A stabil diffúzió gépi tanulási modell a Stability AI fejlesztette ki természetes nyelvű leírásokból kiváló minőségű digitális képeket generálni. A modell különféle feladatokhoz használható, például szövegvezérelt kép-kép fordítás generálására és képjavításra.
A versenytárs modellekkel, például a DALL-E-vel ellentétben a Stable Diffusion nyílt forráskódú1, és nem korlátozza mesterségesen az általa előállított képeket. A kritikusok aggodalmukat fejezték ki a mesterséges intelligencia etikájával kapcsolatban, azt állítva, hogy a modell használható mélyhamisítások készítésére.
Robin Rombach (Stability AI) és Patrick Esser (Runway ML) dinamikus csapata az LMU Münchenben működő CompVis csoportból Prof. Dr. Björn Ommer vezetésével vezette a Stable Diffusion V1 eredeti kiadását. Korábbi labormunkájukra építettek látens diffúziós modellekkel, és kritikus támogatást kaptak a LAION-tól és az Eleuther AI-tól. A Stable Diffusion V1 eredeti kiadásáról korábbi blogbejegyzésünkben olvashat bővebben. Robin most Katherine Crowsonnal együtt vezeti a Stability AI-nél a médiamodellek következő generációjának létrehozására irányuló erőfeszítéseket szélesebb csapatunkkal.
A Stable Diffusion 2.0 számos nagyszerű fejlesztést és funkciót kínál az eredeti V1-es verzióhoz képest.
A Stable Diffusion 2.0 fő hírei
Ebben a bemutatott új verzióban szöveges leíráson alapuló új képszintézis modell készült „SD2.0-v”, amely támogatja a 768×768-as felbontású képek generálását. Az új modellt az 5 milliárd képből álló, szöveges leírásokat tartalmazó LAION-5850B gyűjtemény segítségével képezték ki.
A modell ugyanazt a paraméterkészletet használja, mint a Stable Diffusion 1.5 modell, de különbözik egy alapvetően eltérő OpenCLIP-ViT/H kódoló használatára való átállástól, amely lehetővé tette a kapott képek minőségének jelentős javítását.
Elkészült az A az SD2.0-alap egyszerűsített változata, 256×256-os képekre edzett a klasszikus zaj-előrejelző modell segítségével és támogatja az 512×512-es felbontású képek generálását.
Ezen kívül kiemelik azt is szupermintavételezési technológia alkalmazásának lehetősége biztosított (Szuper felbontás) az eredeti kép felbontásának növelése a minőség romlása nélkül, térbeli léptékezési és részletrekonstrukciós algoritmusok használatával.
A többi változás közül amelyek kiemelkednek ebből az új verzióból:
- A mellékelt képfeldolgozó modell (SD20-upscaler) támogatja a 4x-es nagyítást, így 2048×2048-as felbontású képek készíthetők.
- A Stable Diffusion 2.0 tartalmaz egy Upscaler Diffusion modellt is, amely négyszeresére javítja a képfelbontást.
- Az SD2.0-depth2img modell javasolt, amely figyelembe veszi az objektumok mélységét és térbeli elrendezését. A MiDaS rendszert használják a monokuláris mélység becslésére.
- Új szövegvezérelt belső fényezési modell, finomhangolás az új Stable Diffusion 2.0 szöveg-kép alapon
- A modell lehetővé teszi új képek szintetizálását egy másik kép sablonként történő felhasználásával, amely gyökeresen eltérhet az eredetitől, de megőrzi az általános kompozíciót és mélységet. Használhatja például egy személy pózát a fényképen, hogy egy másik karaktert alakítson ki ugyanabban a pózban.
- Frissített modell a képek módosításához: SD 2.0-festés, amely lehetővé teszi a szöveges tippek használatát a kép egyes részei cseréjéhez és megváltoztatásához.
- A modelleket GPU-val rendelkező mainstream rendszereken való használatra optimalizálták.
Végül igen szeretne többet megtudni róla, tudnia kell, hogy a neurális hálózatok képzési és képalkotó eszközeinek kódja Python nyelven van megírva a PyTorch keretrendszer segítségével, és az MIT licenc alatt adják ki.
Az előre betanított modellek a Creative ML OpenRAIL-M engedélye alatt állnak rendelkezésre, amely lehetővé teszi a kereskedelmi felhasználást.
forrás: https://stability.ai