Stable Diffusion 2.0, umetna inteligenca, ki lahko sintetizira in spreminja slike

Slika, ustvarjena s Stable Diffusion 2.0

Pred kratkim Stabilnost AI, razkrito prek objave na blogu druga izdaja sistema samodejno učenje Stabilna difuzija, ki je sposoben sintetizirati in spreminjati slike na podlagi predlagane predloge ali besedilnega opisa v naravnem jeziku.

Stabilna difuzija je model strojnega učenja razvil Stability AI za ustvarjanje visokokakovostnih digitalnih slik iz opisov v naravnem jeziku. Model se lahko uporablja za različne naloge, kot je generiranje besedilno vodenih prevodov slike v sliko in izboljšanje slike.

Za razliko od konkurenčnih modelov, kot je DALL-E, je Stable Diffusion odprtokoden1 in ne omejuje umetno slik, ki jih ustvari. Kritiki so izrazili zaskrbljenost glede etike umetne inteligence in trdili, da je model mogoče uporabiti za ustvarjanje globokih ponaredkov.

Dinamična ekipa Robina Rombacha (Stability AI) in Patricka Esserja (Runway ML) iz skupine CompVis na LMU München, ki jo vodi prof. dr. Björn Ommer, je vodila prvotno izdajo Stable Diffusion V1. Gradili so na svojem prejšnjem laboratorijskem delu z modeli latentne difuzije in pridobili kritično podporo LAION in Eleuther AI. Več o izvirni izdaji Stable Diffusion V1 lahko preberete v naši prejšnji objavi v blogu. Robin zdaj s Katherine Crowson pri Stability AI vodi prizadevanja za ustvarjanje naslednje generacije medijskih modelov z našo širšo ekipo.

Stable Diffusion 2.0 ponuja številne odlične izboljšave in funkcije v primerjavi z izvirno različico V1.

Glavne novice Stable Diffusion 2.0

V tej novi različici, ki je predstavljena ustvarjen je nov model sinteze slike, ki temelji na besedilnem opisu »SD2.0-v«, ki podpira generiranje slik v ločljivosti 768×768. Novi model je bil usposobljen z uporabo zbirke LAION-5B s 5850 milijarde slik z besedilnimi opisi.

Model uporablja enak nabor parametrov kot model Stable Diffusion 1.5, vendar se razlikuje po prehodu na uporabo bistveno drugačnega kodirnika OpenCLIP-ViT/H, kar je omogočilo bistveno izboljšanje kakovosti nastalih slik.

A je pripravljen poenostavljena različica SD2.0-base, treniral na slikah 256×256 z uporabo klasičnega modela napovedovanja hrupa in podpiral generiranje slik z ločljivostjo 512×512.

Poleg tega je poudarjeno tudi, da zagotovljena je možnost uporabe tehnologije supersamplinga (Super Resolution) za povečanje ločljivosti izvirne slike brez zmanjšanja kakovosti z uporabo prostorskega skaliranja in algoritmov za rekonstrukcijo podrobnosti.

Od ostalih sprememb ki izstopajo iz te nove različice:

Priloženi model za obdelavo slike (SD20-upscaler) podpira 4-kratno povečavo, kar omogoča ustvarjanje slik z ločljivostjo 2048×2048.
Stable Diffusion 2.0 vključuje tudi model Upscaler Diffusion, ki izboljša ločljivost slike za faktor 4.
Predlaga se model SD2.0-depth2img, ki upošteva globino in prostorsko razporeditev objektov. Za oceno monokularne globine se uporablja sistem MiDaS.
Nov model notranje barve, ki temelji na besedilu, natančno nastavljen na novi osnovi besedila v sliko Stable Diffusion 2.0
Model vam omogoča, da sintetizirate nove slike z uporabo druge slike kot predloge, ki je lahko radikalno drugačna od izvirnika, vendar ohranja celotno kompozicijo in globino. Pozo osebe na fotografiji lahko na primer uporabite za oblikovanje drugega lika v isti pozi.
Posodobljen model za spreminjanje slik: SD 2.0-inpainting, ki omogoča uporabo besedilnih namigov za zamenjavo in spremembo delov slike.
Modeli so bili optimizirani za uporabo v običajnih sistemih z GPE.

Končno ja te zanima več o tem, morate vedeti, da je koda za orodja za usposabljanje in slikanje nevronske mreže napisana v Pythonu z uporabo ogrodja PyTorch in izdana pod licenco MIT.

Vnaprej usposobljeni modeli so odprti pod dovoljeno licenco Creative ML OpenRAIL-M, ki dovoljuje komercialno uporabo.

vir: https://stability.ai

DesdeLinux

Stable Diffusion 2.0, umetna inteligenca, ki lahko sintetizira in spreminja slike

Glavne novice Stable Diffusion 2.0

Pustite svoj komentar Prekliči odgovor