Stable Diffusion 2.0, një AI i aftë për të sintetizuar dhe modifikuar imazhe

Difuzion i qëndrueshëm 2.0

Imazhi i krijuar me Stable Diffusion 2.0

kohët e fundit U zbulua Stabiliteti AI përmes një postimi në blog edicioni i dytë i sistemit mësimi i makinerisë Difuzion i qëndrueshëm, i cili është i aftë të sintetizojë dhe modifikojë imazhe bazuar në një shabllon të sugjeruar ose një përshkrim teksti në gjuhën natyrore.

Difuzioni i qëndrueshëm është një model të mësimit të makinës zhvilluar nga Stability AI për të gjeneruar imazhe dixhitale me cilësi të lartë nga përshkrimet e gjuhëve natyrore. Modeli mund të përdoret për detyra të ndryshme, të tilla si gjenerimi i përkthimeve imazh-për-imazh të drejtuar nga teksti dhe përmirësimi i imazhit.

Ndryshe nga modelet konkurruese si DALL-E, Stable Diffusion është me burim të hapur1 dhe nuk kufizon artificialisht imazhet që prodhon. Kritikët kanë ngritur shqetësime në lidhje me etikën e AI, duke pretenduar se modeli mund të përdoret për të krijuar falsifikime të thella.

Ekipi dinamik i Robin Rombach (Stability AI) dhe Patrick Esser (Runway ML) nga Grupi CompVis në LMU Munich i kryesuar nga Prof. Dr. Björn Ommer, udhëhoqi lëshimin origjinal të Stable Diffusion V1. Ata ndërtuan punën e tyre të mëparshme laboratorike me modele të difuzionit latent dhe fituan mbështetje kritike nga LAION dhe Eleuther AI. Mund të lexoni më shumë rreth lëshimit origjinal të Stable Diffusion V1 në postimin tonë të mëparshëm në blog. Robin tani po udhëheq përpjekjet me Katherine Crowson në Stability AI për të krijuar gjeneratën e ardhshme të modeleve të medias me ekipin tonë më të gjerë.

Stable Diffusion 2.0 ofron një sërë përmirësimesh dhe veçorish të mëdha në krahasim me versionin origjinal V1.

Lajmet kryesore të Stable Diffusion 2.0

Në këtë version të ri që paraqitet është krijuar një model i ri i sintezës së imazhit bazuar në përshkrimin e tekstit "SD2.0-v", i cili mbështet gjenerimin e imazheve me rezolucion 768×768. Modeli i ri u trajnua duke përdorur koleksionin LAION-5B prej 5850 miliardë imazhesh me përshkrime teksti.

Modeli përdor të njëjtin grup parametrash si modeli Stable Diffusion 1.5, por ndryshon nga kalimi në përdorimin e një koduesi thelbësisht të ndryshëm OpenCLIP-ViT/H, i cili bëri të mundur përmirësimin e ndjeshëm të cilësisë së imazheve që rezultojnë.

A është përgatitur versioni i thjeshtuar i bazës SD2.0, i trajnuar për imazhe 256×256 duke përdorur modelin klasik të parashikimit të zhurmës dhe duke mbështetur gjenerimin e imazheve me rezolucion 512×512.

Krahas kësaj theksohet edhe se ofrohet mundësia e përdorimit të teknologjisë së supermostrimit (Super Resolution) për të rritur rezolucionin e imazhit origjinal pa ulur cilësinë, duke përdorur shkallëzimin hapësinor dhe algoritmet e rindërtimit të detajeve.

Nga ndryshimet e tjera që dallohen nga ky version i ri:

  • Modeli i ofruar i përpunimit të imazhit (SD20-upscaler) mbështet zmadhimin 4x, duke lejuar që të krijohen imazhe me rezolucion 2048×2048.
  • Stable Diffusion 2.0 përfshin gjithashtu një model Upscaler Diffusion që përmirëson rezolucionin e imazhit me një faktor prej 4.
  • Propozohet modeli SD2.0-depth2img, i cili merr parasysh thellësinë dhe rregullimin hapësinor të objekteve. Sistemi MiDaS përdoret për të vlerësuar thellësinë monokulare.
  • Modeli i ri i bojës së brendshme të drejtuar nga teksti, i akorduar mirë në bazën e re Stable Diffusion 2.0 tekst-në-imazh
  • Modeli ju lejon të sintetizoni imazhe të reja duke përdorur një imazh tjetër si shabllon, i cili mund të jetë rrënjësisht i ndryshëm nga origjinali, por ruan përbërjen dhe thellësinë e përgjithshme. Për shembull, mund të përdorni pozën e një personi në një foto për të formuar një personazh tjetër në të njëjtën pozë.
  • Modeli i përditësuar për modifikimin e imazheve: SD 2.0-inpainting, i cili lejon përdorimin e sugjerimeve të tekstit për të zëvendësuar dhe ndryshuar pjesë të imazhit.
  • Modelet janë optimizuar për t'u përdorur në sistemet kryesore me një GPU.

Më në fund po jeni të interesuar të dini më shumë për të, duhet të dini se kodi për mjetet e trajnimit dhe imazhit të rrjetit nervor është shkruar në Python duke përdorur kornizën PyTorch dhe lëshohet nën licencën MIT.

Modelet e trajnuara paraprakisht janë të hapura nën licencën lejuese Creative ML OpenRAIL-M, e cila lejon përdorimin komercial.

Fuente: https://stability.ai


Lini komentin tuaj

Adresa juaj e emailit nuk do të publikohet. Fusha e kërkuar janë shënuar me *

*

*

  1. Përgjegjës për të dhënat: Miguel Ángel Gatón
  2. Qëllimi i të dhënave: Kontrolloni SPAM, menaxhimin e komenteve.
  3. Legjitimimi: Pëlqimi juaj
  4. Komunikimi i të dhënave: Të dhënat nuk do t'u komunikohen palëve të treta përveç me detyrim ligjor.
  5. Ruajtja e të dhënave: Baza e të dhënave e organizuar nga Occentus Networks (BE)
  6. Të drejtat: Në çdo kohë mund të kufizoni, rikuperoni dhe fshini informacionin tuaj.