Stable Diffusion 2.0, AI, mis suudab pilte sünteesida ja muuta

Pilt on loodud rakendusega Stable Diffusion 2.0

Hiljuti Stabiilsus AI, avalikustati blogipostituse kaudu süsteemi teine väljaanne automaatne õppimine Stabiilne difusioon, mis suudab soovitatud malli või loomuliku keele tekstikirjelduse põhjal pilte sünteesida ja muuta.

Stabiilne difusioon on masinõppe mudel mille on välja töötanud Stability AI luua loomuliku keele kirjeldustest kvaliteetseid digipilte. Mudelit saab kasutada erinevate ülesannete jaoks, näiteks tekstipõhiselt pildist pildiks tõlgete genereerimiseks ja pildi täiustamiseks.

Erinevalt konkureerivatest mudelitest, nagu DALL-E, on Stable Diffusion avatud lähtekoodiga1 ega piira kunstlikult toodetavaid pilte. Kriitikud on väljendanud muret tehisintellekti eetika pärast, väites, et mudelit saab kasutada süvavõltsingute loomiseks.

Dünaamiline meeskond Robin Rombach (Stability AI) ja Patrick Esser (Runway ML) LMU Müncheni CompVis Groupist eesotsas prof dr Björn Ommeriga juhtis Stable Diffusion V1 algset väljalaskmist. Nad tuginesid oma varasemale laboritööle latentsete difusioonimudelitega ning said kriitilise toetuse LAIONilt ja Eleuther AI-lt. Lisateavet Stable Diffusion V1 originaalväljaande kohta saate lugeda meie eelmisest ajaveebi postitusest. Robin juhib nüüd koos Katherine Crowsoniga ettevõttes Stability AI uue põlvkonna meediamudeleid koos meie laiema meeskonnaga.

Stable Diffusion 2.0 pakub mitmeid suurepäraseid täiustusi ja funktsioone võrreldes algse V1 versiooniga.

Stable Diffusion 2.0 peamised uudised

Selles uues versioonis, mida esitatakse on loodud uus tekstikirjeldusel põhinev pildisünteesi mudel "SD2.0-v", mis toetab piltide genereerimist eraldusvõimega 768 × 768. Uue mudeli väljaõppeks kasutati 5 miljardist tekstikirjeldusega pildist koosnevat LAION-5850B kollektsiooni.

Mudel kasutab samu parameetrite komplekti nagu Stable Diffusion 1.5 mudel, kuid erineb üleminekust põhimõtteliselt erinevale OpenCLIP-ViT/H kodeerijale, mis võimaldas oluliselt parandada saadud piltide kvaliteeti.

A on ette valmistatud SD2.0 baasi lihtsustatud versioon, mis on koolitatud 256 × 256 piltidele, kasutades klassikalist müra ennustamise mudelit ja toetades piltide genereerimist eraldusvõimega 512 × 512.

Lisaks sellele rõhutatakse ka seda on ette nähtud supersamplingu tehnoloogia kasutamise võimalus (Super Resolution), et suurendada algkujutise eraldusvõimet ilma kvaliteeti vähendamata, kasutades ruumilise skaleerimise ja detailide rekonstrueerimise algoritme.

Muudest muudatustest mis eristuvad sellest uuest versioonist:

Kaasasolev pilditöötlusmudel (SD20-upscaler) toetab 4x suurendust, mis võimaldab luua pilte eraldusvõimega 2048×2048.
Stable Diffusion 2.0 sisaldab ka Upscaler Diffusion mudelit, mis parandab pildi eraldusvõimet 4 korda.
Pakutakse välja SD2.0-depth2img mudel, mis võtab arvesse objektide sügavust ja ruumilist paigutust. Monokulaarse sügavuse hindamiseks kasutatakse MiDaS-süsteemi.
Uus tekstipõhine sisevärvimudel, mis on peenhäälestatud uuel Stable Diffusion 2.0 tekst-pildiks baasil
Mudel võimaldab sünteesida uusi pilte, kasutades mallina teist pilti, mis võib originaalist kardinaalselt erineda, kuid säilitab üldise kompositsiooni ja sügavuse. Näiteks võite kasutada fotol oleva inimese poosi, et moodustada teine tegelane samas poosis.
Piltide muutmise uuendatud mudel: SD 2.0-inpainting, mis võimaldab kasutada tekstivihjeid pildi osade asendamiseks ja muutmiseks.
Mudelid on optimeeritud kasutamiseks tavalistes GPU-ga süsteemides.

Lõpuks jah olete huvitatud sellest rohkem teada saama, peaksite teadma, et närvivõrgu koolitus- ja pilditööriistade kood on kirjutatud Pythonis, kasutades PyTorchi raamistikku ja välja antud MIT-i litsentsi alusel.

Eelkoolitatud mudelid on avatud Creative ML OpenRAIL-M lubava litsentsi alusel, mis võimaldab ärilist kasutamist.

allikas: https://stability.ai

DesdeLinux

Stable Diffusion 2.0, AI, mis suudab pilte sünteesida ja muuta

Stable Diffusion 2.0 peamised uudised

Jäta oma kommentaar Tühista vastus