Stable Diffusion 2.0, una AI capaz de sintetizar y modificar imágenes

Slika generirana pomoću Stable Diffusion 2.0

nedavno Stabilnost AI, predstavljena putem posta na blogu drugo izdanje sustava strojno učenje Stabilna difuzija, koji je sposoban sintetizirati i modificirati slike na temelju predloženog predloška ili opisa teksta na prirodnom jeziku.

Stabilna difuzija je model strojnog učenja razvijen od strane Stability AI za generiranje visokokvalitetnih digitalnih slika iz opisa prirodnog jezika. Model se može koristiti za različite zadatke, kao što je generiranje tekstualno vođenih prijevoda slike u sliku i poboljšanje slike.

Za razliku od konkurentskih modela poput DALL-E, Stable Diffusion je open source1 i ne ograničava umjetno slike koje proizvodi. Kritičari su izrazili zabrinutost oko etike umjetne inteligencije, tvrdeći da se model može koristiti za stvaranje deepfakeova.

Dinamični tim Robina Rombacha (Stability AI) i Patricka Essera (Runway ML) iz CompVis grupe na LMU München na čelu s prof. dr. Björnom Ommerom vodio je originalno izdanje Stable Diffusion V1. Nadogradili su svoj prethodni laboratorijski rad s modelima latentne difuzije i dobili kritičnu podršku od LAION-a i Eleuther AI-ja. Više o izvornom izdanju Stable Diffusion V1 možete pročitati u našem prethodnom postu na blogu. Robin sada zajedno s Katherine Crowson u tvrtki Stability AI vodi napore za stvaranje nove generacije medijskih modela s našim širim timom.

Stable Diffusion 2.0 nudi niz sjajnih poboljšanja i značajki u usporedbi s originalnom verzijom V1.

Glavne vijesti o Stable Diffusion 2.0

U ovoj novoj verziji koja je predstavljena kreiran je novi model sinteze slike temeljen na opisu teksta "SD2.0-v", koji podržava generiranje slika rezolucije 768×768. Novi model obučen je korištenjem zbirke LAION-5B od 5850 milijardi slika s tekstualnim opisima.

Model koristi isti skup parametara kao i model Stable Diffusion 1.5, ali se razlikuje po prijelazu na korištenje bitno drugačijeg OpenCLIP-ViT/H kodera, što je omogućilo značajno poboljšanje kvalitete dobivenih slika.

A je pripremljeno pojednostavljena verzija SD2.0-baze, obučen na slikama veličine 256×256 koristeći klasični model predviđanja šuma i podržavajući generiranje slika rezolucije 512×512.

Uz to se ističe i da predviđena je mogućnost korištenja tehnologije supersamplinga (Super Resolution) za povećanje razlučivosti izvorne slike bez smanjenja kvalitete, korištenjem algoritama za prostorno skaliranje i rekonstrukciju detalja.

Od ostalih promjena koji se ističu u ovoj novoj verziji:

Isporučeni model obrade slike (SD20-upscaler) podržava povećanje od 4x, što omogućuje generiranje slika razlučivosti 2048×2048.
Stable Diffusion 2.0 također uključuje model Upscaler Diffusion koji poboljšava razlučivost slike za faktor 4.
Predlaže se model SD2.0-depth2img koji uzima u obzir dubinu i prostorni raspored objekata. Za procjenu monokularne dubine koristi se sustav MiDaS.
Novi model unutarnje boje vođen tekstom, fino podešen na novoj bazi teksta u sliku Stable Diffusion 2.0
Model vam omogućuje da sintetizirate nove slike koristeći drugu sliku kao predložak, koji može biti radikalno drugačiji od izvornika, ali zadržava ukupnu kompoziciju i dubinu. Na primjer, možete koristiti pozu osobe na fotografiji da oblikujete drugi lik u istoj pozi.
Ažurirani model za modificiranje slika: SD 2.0-inpainting, koji omogućuje korištenje tekstualnih savjeta za zamjenu i promjenu dijelova slike.
Modeli su optimizirani za korištenje na glavnim sustavima s GPU-om.

Napokon da zainteresirani ste da saznate više o tome, trebali biste znati da je kod za obuku neuronske mreže i alate za izradu slika napisan u Pythonu pomoću okvira PyTorch i objavljen pod licencom MIT-a.

Unaprijed obučeni modeli otvoreni su pod dopuštenom licencom Creative ML OpenRAIL-M, koja dopušta komercijalnu upotrebu.

izvor: https://stability.ai

DesdeLinux

Stable Diffusion 2.0, AI sposoban sintetizirati i modificirati slike

Glavne vijesti o Stable Diffusion 2.0

Ostavite svoj komentar Otkaži odgovor