Stable Diffusion 2.0, isang AI na may kakayahang mag-synthesize at magbago ng mga imahe

Matatag na Pagsasabog 2.0

Nabuo ang larawan gamit ang Stable Diffusion 2.0

Kamakailan lamang Stability AI, inihayag sa pamamagitan ng isang post sa blog ang pangalawang edisyon ng system pag-aaral ng makina Matatag na Pagsasabog, na may kakayahang mag-synthesize at magbago ng mga larawan batay sa isang iminungkahing template o isang natural na paglalarawan ng teksto ng wika.

Ang Stable Diffusion ay isang machine learning model binuo ng Stability AI upang makabuo ng mataas na kalidad na mga digital na larawan mula sa mga natural na paglalarawan ng wika. Ang modelo ay maaaring gamitin para sa iba't ibang gawain, tulad ng pagbuo ng text-guided image-to-image na mga pagsasalin at pagpapahusay ng imahe.

Hindi tulad ng mga nakikipagkumpitensyang modelo tulad ng DALL-E, ang Stable Diffusion ay open source1 at hindi artipisyal na nililimitahan ang mga larawang ginagawa nito. Ang mga kritiko ay nagtaas ng mga alalahanin tungkol sa etika ng AI, na sinasabing ang modelo ay maaaring gamitin upang lumikha ng mga deepfakes.

Ang dinamikong koponan nina Robin Rombach (Stability AI) at Patrick Esser (Runway ML) mula sa CompVis Group sa LMU Munich na pinamumunuan ni Prof. Dr. Björn Ommer, ang nanguna sa orihinal na pagpapalabas ng Stable Diffusion V1. Binuo nila ang kanilang nakaraang gawain sa lab gamit ang mga latent diffusion na modelo at nakakuha ng kritikal na suporta mula sa LAION at Eleuther AI. Maaari kang magbasa nang higit pa tungkol sa orihinal na paglabas ng Stable Diffusion V1 sa aming nakaraang post sa blog. Pinangunahan na ngayon ni Robin ang pagsisikap kasama si Katherine Crowson sa Stability AI upang lumikha ng susunod na henerasyon ng mga modelo ng media kasama ang aming mas malawak na koponan.

Nag-aalok ang Stable Diffusion 2.0 ng maraming magagandang pagpapahusay at feature kumpara sa orihinal na bersyon ng V1.

Pangunahing balita ng Stable Diffusion 2.0

Sa bagong bersyon na ito ay ipinakita isang bagong modelo ng synthesis ng imahe batay sa paglalarawan ng teksto ay nilikha "SD2.0-v", na sumusuporta sa pagbuo ng mga larawan na may resolution na 768×768. Ang bagong modelo ay sinanay gamit ang LAION-5B na koleksyon ng 5850 bilyong larawan na may mga paglalarawan ng teksto.

Ang modelo ay gumagamit ng parehong hanay ng mga parameter gaya ng Stable Diffusion 1.5 na modelo, ngunit nagkakaiba sa pamamagitan ng paglipat sa paggamit ng isang pangunahing naiibang OpenCLIP-ViT/H encoder, na naging posible upang makabuluhang mapabuti ang kalidad ng mga resultang larawan.

A ay inihanda pinasimpleng bersyon ng SD2.0-base, sinanay sa 256×256 na mga larawan gamit ang klasikal na modelo ng paghula ng ingay at sumusuporta sa pagbuo ng mga larawan na may resolution na 512×512.

Bilang karagdagan dito, ito ay naka-highlight din na ang posibilidad ng paggamit ng supersampling na teknolohiya ay ibinigay (Super Resolution) upang taasan ang resolution ng orihinal na larawan nang hindi binabawasan ang kalidad, gamit ang spatial scaling at mga algorithm sa muling pagtatayo ng detalye.

Sa iba pang mga pagbabago tumayo mula sa bagong bersyon na ito:

  • Ang ibinigay na modelo ng pagpoproseso ng imahe (SD20-upscaler) ay sumusuporta sa 4x magnification, na nagpapahintulot sa mga larawang may resolution na 2048×2048 na mabuo.
  • Kasama rin sa Stable Diffusion 2.0 ang isang Upscaler Diffusion na modelo na nagpapahusay sa resolution ng imahe sa pamamagitan ng isang factor na 4.
  • Ang modelo ng SD2.0-depth2img ay iminungkahi, na isinasaalang-alang ang lalim at spatial na pag-aayos ng mga bagay. Ang MiDaS system ay ginagamit upang tantiyahin ang monocular depth.
  • Bagong text-driven na interior na modelo ng pintura, pinong-tune sa bagong Stable Diffusion 2.0 text-to-image base
  • Binibigyang-daan ka ng modelo na mag-synthesize ng mga bagong larawan gamit ang isa pang larawan bilang isang template, na maaaring kakaiba sa orihinal, ngunit pinapanatili ang kabuuang komposisyon at lalim. Halimbawa, maaari mong gamitin ang pose ng isang tao sa isang larawan upang bumuo ng isa pang karakter sa parehong pose.
  • Na-update na modelo para sa pagbabago ng mga larawan: SD 2.0-inpainting, na nagbibigay-daan sa paggamit ng mga text na pahiwatig upang palitan at baguhin ang mga bahagi ng larawan.
  • Ang mga modelo ay na-optimize para magamit sa mga mainstream system na may GPU.

Panghuli oo interesado kang malaman ang higit pa tungkol dito, dapat mong malaman na ang code para sa pagsasanay sa neural network at mga tool sa imaging ay nakasulat sa Python gamit ang PyTorch framework at inilabas sa ilalim ng lisensya ng MIT.

Ang mga pre-trained na modelo ay bukas sa ilalim ng Creative ML OpenRAIL-M permissive license, na nagpapahintulot sa komersyal na paggamit.

Fuente: https://stability.ai


Iwanan ang iyong puna

Ang iyong email address ay hindi nai-publish. Mga kinakailangang patlang ay minarkahan ng *

*

*

  1. Responsable para sa data: Miguel Ángel Gatón
  2. Layunin ng data: Kontrolin ang SPAM, pamamahala ng komento.
  3. Legitimation: Ang iyong pahintulot
  4. Komunikasyon ng data: Ang data ay hindi maiparating sa mga third party maliban sa ligal na obligasyon.
  5. Imbakan ng data: Ang database na naka-host ng Occentus Networks (EU)
  6. Mga Karapatan: Sa anumang oras maaari mong limitahan, mabawi at tanggalin ang iyong impormasyon.