Nedávno Stabilita AI, odhaleno prostřednictvím příspěvku na blogu druhé vydání systému automatické učení Stabilní difúze, který je schopen syntetizovat a upravovat obrázky na základě navržené šablony nebo textového popisu v přirozeném jazyce.
Stabilní difúze je model strojového učení vyvinutý společností Stability AI generovat vysoce kvalitní digitální obrázky z popisů v přirozeném jazyce. Model lze použít pro různé úkoly, jako je generování textově řízených překladů mezi obrázky a vylepšování obrázků.
Na rozdíl od konkurenčních modelů, jako je DALL-E, je Stable Diffusion open source1 a uměle neomezuje obrázky, které produkuje. Kritici vyjádřili obavy ohledně etiky umělé inteligence a tvrdili, že model lze použít k vytváření deepfakes.
Dynamický tým Robina Rombacha (Stability AI) a Patricka Essera (Runway ML) ze skupiny CompVis na LMU Mnichov v čele s Prof. Dr. Björnem Ommerem vedl původní vydání Stable Diffusion V1. Navázali na svou předchozí laboratorní práci s modely latentní difúze a získali kritickou podporu od LAION a Eleuther AI. Více o původním vydání Stable Diffusion V1 si můžete přečíst v našem předchozím příspěvku na blogu. Robin nyní vede s Katherine Crowsonovou ve Stability AI úsilí o vytvoření nové generace mediálních modelů s naším širším týmem.
Stable Diffusion 2.0 nabízí oproti původní verzi V1 řadu skvělých vylepšení a funkcí.
Hlavní novinky Stable Diffusion 2.0
V této nové verzi, která je uvedena byl vytvořen nový model syntézy obrazu založený na textovém popisu „SD2.0-v“, který podporuje generování obrázků s rozlišením 768×768. Nový model byl trénován pomocí kolekce LAION-5B s 5850 miliardami obrázků s textovými popisy.
Model využívá stejnou sadu parametrů jako model Stable Diffusion 1.5, liší se však přechodem na použití zásadně jiného kodéru OpenCLIP-ViT/H, což umožnilo výrazně zlepšit kvalitu výsledných snímků.
A bylo připraveno zjednodušená verze SD2.0-base, trénovaný na obrázcích 256×256 pomocí klasického modelu predikce šumu a podporujících generování obrázků s rozlišením 512×512.
Kromě toho je také zdůrazněno, že je zajištěna možnost použití technologie supersampling (Super Resolution) pro zvýšení rozlišení původního obrazu bez snížení kvality pomocí algoritmů pro prostorové škálování a rekonstrukci detailů.
Z dalších změn které vyčnívají z této nové verze:
- Dodávaný model zpracování obrazu (SD20-upscaler) podporuje 4x zvětšení, což umožňuje generovat snímky s rozlišením 2048×2048.
- Stable Diffusion 2.0 také obsahuje model Upscaler Diffusion, který zlepšuje rozlišení obrazu faktorem 4.
- Je navržen model SD2.0-depth2img, který zohledňuje hloubku a prostorové uspořádání objektů. Systém MiDaS slouží k odhadu monokulární hloubky.
- Nový textově řízený model lakování interiéru, vyladěný na nové bázi Stable Diffusion 2.0 pro převod textu na obrázek
- Model umožňuje syntetizovat nové obrázky pomocí jiného obrázku jako předlohy, který se může radikálně lišit od originálu, ale zachovává si celkovou kompozici a hloubku. Můžete například použít pózu osoby na fotografii k vytvoření jiné postavy ve stejné póze.
- Aktualizovaný model pro úpravu obrázků: SD 2.0-inpainting, který umožňuje použití textových nápověd k nahrazení a změně částí obrázku.
- Modely byly optimalizovány pro použití na běžných systémech s GPU.
Nakonec ano máte zájem se o tom dozvědět více, měli byste vědět, že kód pro trénovací a zobrazovací nástroje neuronové sítě je napsán v Pythonu pomocí frameworku PyTorch a je vydán pod licencí MIT.
Předtrénované modely jsou otevřeny pod licencí Creative ML OpenRAIL-M, která umožňuje komerční využití.
zdroj: https://stability.ai