Stable Diffusion 2.0, AI, galintis sintetinti ir modifikuoti vaizdus

Stabili difuzija 2.0

Vaizdas sukurtas naudojant Stable Diffusion 2.0

Neseniai Stabilumo AI, pristatytas per tinklaraščio įrašą antrasis sistemos leidimas automatinis mokymasis Stabili difuzija, kuris gali sintezuoti ir modifikuoti vaizdus pagal siūlomą šabloną arba natūralios kalbos teksto aprašymą.

Stabili difuzija yra mašininio mokymosi modelis sukūrė „Stability AI“. sukurti aukštos kokybės skaitmeninius vaizdus iš natūralios kalbos aprašymų. Modelis gali būti naudojamas atliekant įvairias užduotis, pavyzdžiui, kuriant teksto vedamą vaizdo vertimą į vaizdą ir vaizdo patobulinimą.

Skirtingai nuo konkuruojančių modelių, tokių kaip DALL-E, „Stable Diffusion“ yra atvirojo kodo1 ir dirbtinai neriboja sukuriamų vaizdų. Kritikai išreiškė susirūpinimą dėl AI etikos, teigdami, kad modelis gali būti naudojamas kuriant gilias klastotes.

Dinamiška Robino Rombacho (Stability AI) ir Patricko Esserio (Runway ML) komanda iš LMU Miuncheno CompVis grupės, vadovaujama prof. dr. Björno Ommero, vadovavo originaliam Stable Diffusion V1 leidimui. Jie rėmėsi ankstesniu laboratoriniu darbu su latentinės difuzijos modeliais ir sulaukė ypatingos paramos iš LAION ir Eleuther AI. Daugiau apie originalų „Stable Diffusion V1“ leidimą galite perskaityti mūsų ankstesniame tinklaraščio įraše. Dabar Robinas vadovauja pastangoms su Katherine Crowson iš „Stability AI“ sukurti naujos kartos žiniasklaidos modelius kartu su mūsų platesne komanda.

„Stable Diffusion 2.0“ siūlo daugybę puikių patobulinimų ir funkcijų, palyginti su originalia V1 versija.

Pagrindinės Stable Diffusion 2.0 naujienos

Šioje naujoje pateiktoje versijoje sukurtas naujas vaizdų sintezės modelis, paremtas teksto aprašymu „SD2.0-v“, kuri palaiko 768 × 768 raiškos vaizdų generavimą. Naujasis modelis buvo apmokytas naudojant LAION-5B kolekciją, kurią sudaro 5850 mlrd. vaizdų su tekstiniais aprašymais.

Modelis naudoja tą patį parametrų rinkinį kaip ir Stable Diffusion 1.5 modelyje, tačiau skiriasi perėjimu prie iš esmės kitokio OpenCLIP-ViT/H kodavimo įrenginio, kuris leido žymiai pagerinti gaunamų vaizdų kokybę.

A buvo paruoštas supaprastinta SD2.0 bazės versija, apmokytas 256 × 256 vaizdų, naudojant klasikinį triukšmo prognozavimo modelį ir palaikant 512 × 512 raiškos vaizdų generavimą.

Be to, taip pat pabrėžiama, kad numatyta galimybė panaudoti supersampling technologiją (Super Resolution), kad padidintumėte pradinio vaizdo skiriamąją gebą nesumažinant kokybės, naudojant erdvinio mastelio keitimo ir detalių atkūrimo algoritmus.

Iš kitų pokyčių kurie išsiskiria iš šios naujos versijos:

  • Pateiktas vaizdo apdorojimo modelis (SD20-upscaler) palaiko 4x padidinimą, leidžiantį generuoti 2048 × 2048 raiškos vaizdus.
  • „Stable Diffusion 2.0“ taip pat apima „Upscaler Diffusion“ modelį, kuris pagerina vaizdo skiriamąją gebą 4 kartus.
  • Siūlomas SD2.0-depth2img modelis, kuriame atsižvelgiama į objektų gylį ir erdvinį išsidėstymą. MiDaS sistema naudojama monokuliniam gyliui įvertinti.
  • Naujas tekstu pagrįstas vidaus dažų modelis, tiksliai suderintas ant naujojo „Stable Diffusion 2.0“ teksto į vaizdą pagrindo
  • Modelis leidžia sintezuoti naujus vaizdus, ​​naudojant kitą vaizdą kaip šabloną, kuris gali kardinaliai skirtis nuo originalo, tačiau išlaiko bendrą kompoziciją ir gylį. Pavyzdžiui, galite naudoti žmogaus pozą nuotraukoje, kad suformuotumėte kitą personažą toje pačioje pozoje.
  • Atnaujintas vaizdų modifikavimo modelis: SD 2.0 dažymas, leidžiantis naudoti teksto užuominas pakeisti ir pakeisti vaizdo dalis.
  • Modeliai buvo optimizuoti naudoti pagrindinėse sistemose su GPU.

Pagaliau taip jus domina sužinoti daugiau apie tai, turėtumėte žinoti, kad neuroninio tinklo mokymo ir vaizdo gavimo įrankių kodas parašytas Python naudojant PyTorch sistemą ir išleistas pagal MIT licenciją.

Iš anksto parengti modeliai yra atviri pagal Creative ML OpenRAIL-M leistiną licenciją, kuri leidžia naudoti komerciniais tikslais.

Fuente: https://stability.ai


Palikite komentarą

Jūsų elektroninio pašto adresas nebus skelbiamas. Privalomi laukai yra pažymėti *

*

*

  1. Atsakingas už duomenis: Miguel Ángel Gatón
  2. Duomenų paskirtis: kontroliuoti šlamštą, komentarų valdymą.
  3. Įteisinimas: jūsų sutikimas
  4. Duomenų perdavimas: Duomenys nebus perduoti trečiosioms šalims, išskyrus teisinius įsipareigojimus.
  5. Duomenų saugojimas: „Occentus Networks“ (ES) talpinama duomenų bazė
  6. Teisės: bet kuriuo metu galite apriboti, atkurti ir ištrinti savo informaciją.