Stable Diffusion 2.0, AI sing bisa nyintesis lan ngowahi gambar

Difusi Stabil 2.0

Gambar sing diasilake nganggo Difusi Stabil 2.0

Bubar Stabilitas AI, diumumake liwat postingan blog edition kapindho sistem learning mesin Difusi Stabil, sing bisa nyintesis lan ngowahi gambar adhedhasar cithakan sing disaranake utawa deskripsi teks basa alami.

Difusi stabil yaiku model pembelajaran mesin dikembangake dening Stability AI kanggo ngasilake gambar digital kanthi kualitas dhuwur saka deskripsi basa alami. Model kasebut bisa digunakake kanggo macem-macem tugas, kayata ngasilake terjemahan gambar-kanggo-gambar sing dipandu teks lan nambah gambar.

Ora kaya model saingan kaya DALL-E, Stable Diffusion mbukak sumber1 lan ora mbatesi gambar sing diasilake sacara artifisial. Kritikus wis kuwatir babagan etika AI, ngakoni manawa model kasebut bisa digunakake kanggo nggawe deepfakes.

Tim dinamis Robin Rombach (Stability AI) lan Patrick Esser (Runway ML) saka Grup CompVis ing LMU Munich sing dipimpin dening Prof. Dr. Björn Ommer, mimpin rilis asli Stable Diffusion V1. Dheweke mbangun karya lab sadurunge kanthi model difusi laten lan entuk dhukungan kritis saka LAION lan Eleuther AI. Sampeyan bisa maca liyane babagan rilis asli Stable Diffusion V1 ing kiriman blog sadurunge. Robin saiki mimpin upaya karo Katherine Crowson ing Stability AI kanggo nggawe model media generasi sabanjure karo tim sing luwih akeh.

Stable Diffusion 2.0 nawakake sawetara dandan lan fitur sing apik dibandhingake karo versi V1 asli.

Anyar utama saka Difusi Stabil 2.0

Ing versi anyar iki sing ditampilake model sintesis gambar anyar adhedhasar katrangan teks wis digawe "SD2.0-v", sing ndhukung gambar ngasilaken kanthi resolusi 768×768. Model anyar iki dilatih nggunakake koleksi LAION-5B saka 5850 milyar gambar kanthi deskripsi teks.

Model kasebut nggunakake paramèter sing padha karo model Difusi Stabil 1.5, nanging beda karo transisi menyang panggunaan encoder OpenCLIP-ViT / H sing beda banget, sing ndadekake bisa nambah kualitas gambar sing diasilake.

A wis disiapake versi simplified saka SD2.0-basa, dilatih ing gambar 256 × 256 nggunakake model prediksi gangguan klasik lan ndhukung generasi gambar kanthi resolusi 512 × 512.

Saliyane iki, uga disorot sing kamungkinan nggunakake teknologi supersampling kasedhiya (Resolusi Super) kanggo nambah resolusi gambar asli tanpa ngurangi kualitas, nggunakake skala spasial lan algoritma rekonstruksi rinci.

Saka pangowahan liyane sing misuwur saka versi anyar iki:

  • Model pangolahan gambar sing kasedhiya (SD20-upscaler) ndhukung perbesaran 4x, ngidini gambar kanthi resolusi 2048 × 2048 bisa diasilake.
  • Stable Diffusion 2.0 uga kalebu model Difusi Upscaler sing nambah resolusi gambar kanthi faktor 4.
  • Model SD2.0-depth2img diusulake, sing nganggep ambane lan susunan spasial obyek. Sistem MiDaS digunakake kanggo ngira ambane monokular.
  • Model cat interior sing didorong teks anyar, disetel kanthi apik ing basis teks-kanggo-gambar Stable Diffusion 2.0 anyar
  • Model kasebut ngidini sampeyan nyintesis gambar anyar kanthi nggunakake gambar liyane minangka cithakan, sing bisa uga beda banget karo asline, nanging tetep komposisi lan ambane sakabèhé. Contone, sampeyan bisa nggunakake pose wong ing foto kanggo mbentuk karakter liyane ing pose sing padha.
  • model dianyari kanggo gambar ngowahi: SD 2.0-inpainting, sing ngidini nggunakake pitunjuk teks kanggo ngganti lan ngganti bagéan saka gambar.
  • Model kasebut wis dioptimalake kanggo digunakake ing sistem mainstream kanthi GPU.

Akhire ya sampeyan kasengsem ing bisa ngerti liyane babagan, sampeyan kudu ngerti yen kode kanggo latihan jaringan saraf lan alat imaging ditulis ing Python nggunakake kerangka PyTorch lan dirilis ing lisensi MIT.

Model sing wis dilatih mbukak ing lisensi Creative ML OpenRAIL-M, sing ngidini panggunaan komersial.

sumber: https://stability.ai


Konten artikel kasebut sesuai karo prinsip kita yaiku etika editorial. Kanggo nglaporake klik kesalahan Kene.

Dadi pisanan komentar

Ninggalake komentar sampeyan

Panjenengan alamat email ora bisa diterbitake. Perangkat kothak ditandhani karo *

*

*

  1. Tanggung jawab data: Miguel Ángel Gatón
  2. Tujuan data: Kontrol SPAM, manajemen komentar.
  3. Legitimasi: idin sampeyan
  4. Komunikasi data: Data kasebut ora bakal dikomunikasikake karo pihak katelu kajaba kanthi kewajiban ukum.
  5. Panyimpenan data: Database sing dianakake dening Occentus Networks (EU)
  6. Hak: Kapan wae sampeyan bisa matesi, mulihake lan mbusak informasi sampeyan.