Stable Diffusion 2.0, AI schopná syntetizovat a upravovat obrázky

Stabilní difúze 2.0

Obrázek generovaný pomocí Stable Diffusion 2.0

Nedávno Stabilita AI, odhaleno prostřednictvím příspěvku na blogu druhé vydání systému automatické učení Stabilní difúze, který je schopen syntetizovat a upravovat obrázky na základě navržené šablony nebo textového popisu v přirozeném jazyce.

Stabilní difúze je model strojového učení vyvinutý společností Stability AI generovat vysoce kvalitní digitální obrázky z popisů v přirozeném jazyce. Model lze použít pro různé úkoly, jako je generování textově řízených překladů mezi obrázky a vylepšování obrázků.

Na rozdíl od konkurenčních modelů, jako je DALL-E, je Stable Diffusion open source1 a uměle neomezuje obrázky, které produkuje. Kritici vyjádřili obavy ohledně etiky umělé inteligence a tvrdili, že model lze použít k vytváření deepfakes.

Dynamický tým Robina Rombacha (Stability AI) a Patricka Essera (Runway ML) ze skupiny CompVis na LMU Mnichov v čele s Prof. Dr. Björnem Ommerem vedl původní vydání Stable Diffusion V1. Navázali na svou předchozí laboratorní práci s modely latentní difúze a získali kritickou podporu od LAION a Eleuther AI. Více o původním vydání Stable Diffusion V1 si můžete přečíst v našem předchozím příspěvku na blogu. Robin nyní vede s Katherine Crowsonovou ve Stability AI úsilí o vytvoření nové generace mediálních modelů s naším širším týmem.

Stable Diffusion 2.0 nabízí oproti původní verzi V1 řadu skvělých vylepšení a funkcí.

Hlavní novinky Stable Diffusion 2.0

V této nové verzi, která je uvedena byl vytvořen nový model syntézy obrazu založený na textovém popisu „SD2.0-v“, který podporuje generování obrázků s rozlišením 768×768. Nový model byl trénován pomocí kolekce LAION-5B s 5850 miliardami obrázků s textovými popisy.

Model využívá stejnou sadu parametrů jako model Stable Diffusion 1.5, liší se však přechodem na použití zásadně jiného kodéru OpenCLIP-ViT/H, což umožnilo výrazně zlepšit kvalitu výsledných snímků.

A bylo připraveno zjednodušená verze SD2.0-base, trénovaný na obrázcích 256×256 pomocí klasického modelu predikce šumu a podporujících generování obrázků s rozlišením 512×512.

Kromě toho je také zdůrazněno, že je zajištěna možnost použití technologie supersampling (Super Resolution) pro zvýšení rozlišení původního obrazu bez snížení kvality pomocí algoritmů pro prostorové škálování a rekonstrukci detailů.

Z dalších změn které vyčnívají z této nové verze:

  • Dodávaný model zpracování obrazu (SD20-upscaler) podporuje 4x zvětšení, což umožňuje generovat snímky s rozlišením 2048×2048.
  • Stable Diffusion 2.0 také obsahuje model Upscaler Diffusion, který zlepšuje rozlišení obrazu faktorem 4.
  • Je navržen model SD2.0-depth2img, který zohledňuje hloubku a prostorové uspořádání objektů. Systém MiDaS slouží k odhadu monokulární hloubky.
  • Nový textově řízený model lakování interiéru, vyladěný na nové bázi Stable Diffusion 2.0 pro převod textu na obrázek
  • Model umožňuje syntetizovat nové obrázky pomocí jiného obrázku jako předlohy, který se může radikálně lišit od originálu, ale zachovává si celkovou kompozici a hloubku. Můžete například použít pózu osoby na fotografii k vytvoření jiné postavy ve stejné póze.
  • Aktualizovaný model pro úpravu obrázků: SD 2.0-inpainting, který umožňuje použití textových nápověd k nahrazení a změně částí obrázku.
  • Modely byly optimalizovány pro použití na běžných systémech s GPU.

Nakonec ano máte zájem se o tom dozvědět více, měli byste vědět, že kód pro trénovací a zobrazovací nástroje neuronové sítě je napsán v Pythonu pomocí frameworku PyTorch a je vydán pod licencí MIT.

Předtrénované modely jsou otevřeny pod licencí Creative ML OpenRAIL-M, která umožňuje komerční využití.

zdroj: https://stability.ai


Zanechte svůj komentář

Vaše e-mailová adresa nebude zveřejněna. Povinné položky jsou označeny *

*

*

  1. Odpovědný za údaje: Miguel Ángel Gatón
  2. Účel údajů: Ovládací SPAM, správa komentářů.
  3. Legitimace: Váš souhlas
  4. Sdělování údajů: Údaje nebudou sděleny třetím osobám, s výjimkou zákonných povinností.
  5. Úložiště dat: Databáze hostovaná společností Occentus Networks (EU)
  6. Práva: Vaše údaje můžete kdykoli omezit, obnovit a odstranit.