Stable Diffusion 2.0, AI schopná syntetizovat a upravovat obrázky

Obrázek generovaný pomocí Stable Diffusion 2.0

Nedávno Stabilita AI, odhaleno prostřednictvím příspěvku na blogu druhé vydání systému automatické učení Stabilní difúze, který je schopen syntetizovat a upravovat obrázky na základě navržené šablony nebo textového popisu v přirozeném jazyce.

Stabilní difúze je model strojového učení vyvinutý společností Stability AI generovat vysoce kvalitní digitální obrázky z popisů v přirozeném jazyce. Model lze použít pro různé úkoly, jako je generování textově řízených překladů mezi obrázky a vylepšování obrázků.

Na rozdíl od konkurenčních modelů, jako je DALL-E, je Stable Diffusion open source1 a uměle neomezuje obrázky, které produkuje. Kritici vyjádřili obavy ohledně etiky umělé inteligence a tvrdili, že model lze použít k vytváření deepfakes.

Dynamický tým Robina Rombacha (Stability AI) a Patricka Essera (Runway ML) ze skupiny CompVis na LMU Mnichov v čele s Prof. Dr. Björnem Ommerem vedl původní vydání Stable Diffusion V1. Navázali na svou předchozí laboratorní práci s modely latentní difúze a získali kritickou podporu od LAION a Eleuther AI. Více o původním vydání Stable Diffusion V1 si můžete přečíst v našem předchozím příspěvku na blogu. Robin nyní vede s Katherine Crowsonovou ve Stability AI úsilí o vytvoření nové generace mediálních modelů s naším širším týmem.

Stable Diffusion 2.0 nabízí oproti původní verzi V1 řadu skvělých vylepšení a funkcí.

Hlavní novinky Stable Diffusion 2.0

V této nové verzi, která je uvedena byl vytvořen nový model syntézy obrazu založený na textovém popisu „SD2.0-v“, který podporuje generování obrázků s rozlišením 768×768. Nový model byl trénován pomocí kolekce LAION-5B s 5850 miliardami obrázků s textovými popisy.

Model využívá stejnou sadu parametrů jako model Stable Diffusion 1.5, liší se však přechodem na použití zásadně jiného kodéru OpenCLIP-ViT/H, což umožnilo výrazně zlepšit kvalitu výsledných snímků.

A bylo připraveno zjednodušená verze SD2.0-base, trénovaný na obrázcích 256×256 pomocí klasického modelu predikce šumu a podporujících generování obrázků s rozlišením 512×512.

Kromě toho je také zdůrazněno, že je zajištěna možnost použití technologie supersampling (Super Resolution) pro zvýšení rozlišení původního obrazu bez snížení kvality pomocí algoritmů pro prostorové škálování a rekonstrukci detailů.

Z dalších změn které vyčnívají z této nové verze:

Dodávaný model zpracování obrazu (SD20-upscaler) podporuje 4x zvětšení, což umožňuje generovat snímky s rozlišením 2048×2048.
Stable Diffusion 2.0 také obsahuje model Upscaler Diffusion, který zlepšuje rozlišení obrazu faktorem 4.
Je navržen model SD2.0-depth2img, který zohledňuje hloubku a prostorové uspořádání objektů. Systém MiDaS slouží k odhadu monokulární hloubky.
Nový textově řízený model lakování interiéru, vyladěný na nové bázi Stable Diffusion 2.0 pro převod textu na obrázek
Model umožňuje syntetizovat nové obrázky pomocí jiného obrázku jako předlohy, který se může radikálně lišit od originálu, ale zachovává si celkovou kompozici a hloubku. Můžete například použít pózu osoby na fotografii k vytvoření jiné postavy ve stejné póze.
Aktualizovaný model pro úpravu obrázků: SD 2.0-inpainting, který umožňuje použití textových nápověd k nahrazení a změně částí obrázku.
Modely byly optimalizovány pro použití na běžných systémech s GPU.

Nakonec ano máte zájem se o tom dozvědět více, měli byste vědět, že kód pro trénovací a zobrazovací nástroje neuronové sítě je napsán v Pythonu pomocí frameworku PyTorch a je vydán pod licencí MIT.

Předtrénované modely jsou otevřeny pod licencí Creative ML OpenRAIL-M, která umožňuje komerční využití.

zdroj: https://stability.ai

DesdeLinux

Stable Diffusion 2.0, AI schopná syntetizovat a upravovat obrázky

Hlavní novinky Stable Diffusion 2.0

Zanechte svůj komentář Zrušit odpověď