Stable Diffusion 2.0 — AI, kas spēj sintezēt un modificēt attēlus

Stabila difūzija 2.0

Attēls izveidots, izmantojot Stable Diffusion 2.0

Nesen Stabilitātes AI, atklāts izmantojot emuāra ziņu sistēmas otrais izdevums automātiska mācīšanās Stabila difūzija, kas spēj sintezēt un modificēt attēlus, pamatojoties uz ieteikto veidni vai dabiskās valodas teksta aprakstu.

Stabila difūzija ir mašīnmācīšanās modelis izstrādājis Stability AI ģenerēt augstas kvalitātes digitālos attēlus no dabiskās valodas aprakstiem. Modeli var izmantot dažādiem uzdevumiem, piemēram, teksta vadītu attēlu tulkojumu ģenerēšanai un attēla uzlabošanai.

Atšķirībā no konkurējošiem modeļiem, piemēram, DALL-E, Stable Diffusion ir atvērtā koda1, un tas mākslīgi neierobežo tā radītos attēlus. Kritiķi ir pauduši bažas par AI ētiku, apgalvojot, ka modeli var izmantot dziļu viltojumu radīšanai.

Dinamiskā Robina Rombaha (Stability AI) un Patrick Esser (Runway ML) komanda no LMU Minhenes CompVis grupas, kuru vadīja prof. Dr. Bjerns Ommers, vadīja Stable Diffusion V1 sākotnējo izlaišanu. Viņi balstījās uz savu iepriekšējo laboratorijas darbu ar latentās difūzijas modeļiem un guva būtisku atbalstu no LAION un Eleuther AI. Vairāk par Stable Diffusion V1 sākotnējo izlaidumu varat lasīt mūsu iepriekšējā emuāra ierakstā. Tagad Robins kopā ar Ketrīnu Krovsoni no Stability AI vada pūles, lai kopā ar mūsu plašāko komandu izveidotu nākamās paaudzes mediju modeļus.

Stable Diffusion 2.0 piedāvā vairākus lieliskus uzlabojumus un funkcijas, salīdzinot ar sākotnējo V1 versiju.

Galvenās ziņas par Stable Diffusion 2.0

Šajā jaunajā versijā, kas tiek prezentēta izveidots jauns attēlu sintēzes modelis, kas balstīts uz teksta aprakstu "SD2.0-v", kas atbalsta attēlu ģenerēšanu ar izšķirtspēju 768 × 768. Jaunais modelis tika apmācīts, izmantojot LAION-5B kolekciju, kurā ir 5850 miljardi attēlu ar teksta aprakstiem.

Modelis izmanto tādu pašu parametru kopu kā Stable Diffusion 1.5 modelim, taču atšķiras ar pāreju uz principiāli atšķirīga OpenCLIP-ViT/H kodētāja izmantošanu, kas ļāva būtiski uzlabot iegūto attēlu kvalitāti.

A ir sagatavots SD2.0 bāzes vienkāršotā versija, apmācīts uz 256 × 256 attēliem, izmantojot klasisko trokšņu prognozēšanas modeli un atbalstot attēlu ģenerēšanu ar izšķirtspēju 512 × 512.

Papildus tam tiek uzsvērts arī tas tiek nodrošināta supersampling tehnoloģijas izmantošanas iespēja (Super Resolution), lai palielinātu oriģinālā attēla izšķirtspēju, nesamazinot kvalitāti, izmantojot telpiskās mērogošanas un detaļu rekonstrukcijas algoritmus.

No pārējām izmaiņām kas izceļas no šīs jaunās versijas:

  • Piedāvātais attēlu apstrādes modelis (SD20-upscaler) atbalsta 4x palielinājumu, ļaujot ģenerēt attēlus ar izšķirtspēju 2048×2048.
  • Stable Diffusion 2.0 ietver arī Upscaler Diffusion modeli, kas uzlabo attēla izšķirtspēju 4 reizes.
  • Tiek piedāvāts SD2.0-depth2img modelis, kas ņem vērā objektu dziļumu un telpisko izvietojumu. MiDaS sistēmu izmanto, lai novērtētu monokulāro dziļumu.
  • Jauns ar tekstu vadīts salona krāsas modelis, kas precīzi noregulēts uz jaunās Stable Diffusion 2.0 teksta-attēlu bāzes
  • Modelis ļauj sintezēt jaunus attēlus, par veidni izmantojot citu attēlu, kas var kardināli atšķirties no oriģināla, taču saglabā kopējo kompozīciju un dziļumu. Piemēram, jūs varat izmantot fotoattēlā esošās personas pozu, lai izveidotu citu varoni tādā pašā pozā.
  • Atjaunināts modelis attēlu modificēšanai: SD 2.0-inpainting, kas ļauj izmantot teksta ieteikumus, lai aizstātu un mainītu attēla daļas.
  • Modeļi ir optimizēti lietošanai galvenajās sistēmās ar GPU.

Beidzot jā jūs interesē uzzināt vairāk par to, jums jāzina, ka neironu tīkla apmācības un attēlveidošanas rīku kods ir rakstīts Python, izmantojot PyTorch ietvaru, un izlaists saskaņā ar MIT licenci.

Iepriekš apmācīti modeļi ir atvērti saskaņā ar Creative ML OpenRAIL-M atļauju, kas ļauj izmantot komerciāli.

Fuente: https://stability.ai


Atstājiet savu komentāru

Jūsu e-pasta adrese netiks publicēta. Obligātie lauki ir atzīmēti ar *

*

*

  1. Atbildīgais par datiem: Migels Ángels Gatóns
  2. Datu mērķis: SPAM kontrole, komentāru pārvaldība.
  3. Legitimācija: jūsu piekrišana
  4. Datu paziņošana: Dati netiks paziņoti trešām personām, izņemot juridiskus pienākumus.
  5. Datu glabāšana: datu bāze, ko mitina Occentus Networks (ES)
  6. Tiesības: jebkurā laikā varat ierobežot, atjaunot un dzēst savu informāciju.