Stable Diffusion 2.0, AI schopná syntetizovať a upravovať obrázky

Stabilná difúzia 2.0

Obrázok generovaný pomocou Stable Diffusion 2.0

Nedávno Stabilita AI, odhalená prostredníctvom príspevku na blogu druhé vydanie systému automatické učenie Stabilná difúzia, ktorý je schopný syntetizovať a upravovať obrázky na základe navrhovanej šablóny alebo textového popisu v prirodzenom jazyku.

Stabilná difúzia je model strojového učenia vyvinuté spoločnosťou Stability AI vytvárať vysokokvalitné digitálne obrázky z opisov v prirodzenom jazyku. Model možno použiť na rôzne úlohy, ako je generovanie textovo riadených prekladov medzi obrázkami a vylepšenie obrázka.

Na rozdiel od konkurenčných modelov ako DALL-E je Stable Diffusion open source1 a umelo neobmedzuje obrázky, ktoré produkuje. Kritici vyjadrili obavy v súvislosti s etikou AI a tvrdili, že model možno použiť na vytváranie hlbokých falzifikátov.

Dynamický tím Robina Rombacha (Stability AI) a Patricka Essera (Runway ML) zo skupiny CompVis na LMU Mníchov na čele s Prof. Dr. Björnom Ommerom viedol pôvodné vydanie Stable Diffusion V1. Stavali na svojej predchádzajúcej laboratórnej práci s modelmi latentnej difúzie a získali kritickú podporu od LAION a Eleuther AI. Viac o pôvodnom vydaní Stable Diffusion V1 si môžete prečítať v našom predchádzajúcom blogovom príspevku. Robin teraz vedie s Katherine Crowson v Stability AI úsilie o vytvorenie novej generácie mediálnych modelov s naším širším tímom.

Stable Diffusion 2.0 ponúka množstvo skvelých vylepšení a funkcií v porovnaní s pôvodnou verziou V1.

Hlavné novinky Stable Diffusion 2.0

V tejto novej verzii, ktorá je uvedená bol vytvorený nový model syntézy obrázkov založený na textovom popise „SD2.0-v“, ktorý podporuje generovanie obrázkov s rozlíšením 768×768. Nový model bol trénovaný pomocou zbierky LAION-5B s 5850 miliardami obrázkov s textovým popisom.

Model využíva rovnakú sadu parametrov ako model Stable Diffusion 1.5, líši sa však prechodom na použitie zásadne iného OpenCLIP-ViT/H enkodéra, čo umožnilo výrazne zlepšiť kvalitu výsledných snímok.

A bol pripravený zjednodušená verzia základne SD2.0, trénovaný na obrázkoch 256 × 256 pomocou klasického modelu predikcie šumu a podporujúci generovanie obrázkov s rozlíšením 512 × 512.

Okrem toho sa zdôrazňuje aj to je zabezpečená možnosť využitia technológie supersamplingu (Super Resolution) na zvýšenie rozlíšenia pôvodného obrazu bez zníženia kvality pomocou priestorového škálovania a algoritmov rekonštrukcie detailov.

Z ďalších zmien ktoré vyčnievajú z tejto novej verzie:

  • Poskytnutý model spracovania obrazu (SD20-upscaler) podporuje 4-násobné zväčšenie, čo umožňuje vytvárať obrázky s rozlíšením 2048×2048.
  • Stable Diffusion 2.0 obsahuje aj model Upscaler Diffusion, ktorý zlepšuje rozlíšenie obrazu 4-násobne.
  • Navrhuje sa model SD2.0-depth2img, ktorý zohľadňuje hĺbku a priestorové usporiadanie objektov. Na odhad monokulárnej hĺbky sa používa systém MiDaS.
  • Nový textový model interiérového náteru, doladený na novej základni Stable Diffusion 2.0 pre prevod textu na obrázok
  • Model umožňuje syntetizovať nové obrázky pomocou iného obrázka ako predlohy, ktorý sa môže radikálne líšiť od pôvodného, ​​ale zachováva si celkovú kompozíciu a hĺbku. Môžete napríklad použiť pózu osoby na fotografii na vytvorenie inej postavy v rovnakej póze.
  • Aktualizovaný model pre úpravu obrázkov: SD 2.0-inpainting, ktorý umožňuje použiť textové rady na nahradenie a zmenu častí obrázka.
  • Modely boli optimalizované pre použitie v bežných systémoch s GPU.

Konečne áno máte záujem o tom vedieť viac, mali by ste vedieť, že kód pre nástroje na trénovanie a zobrazovanie neurónových sietí je napísaný v jazyku Python pomocou rámca PyTorch a je vydaný pod licenciou MIT.

Predtrénované modely sú otvorené pod licenciou Creative ML OpenRAIL-M, ktorá umožňuje komerčné využitie.

Fuente: https://stability.ai