Stable Diffusion 2.0, en AI, der er i stand til at syntetisere og ændre billeder

Stabil diffusion 2.0

Billede genereret med Stable Diffusion 2.0

nylig Stabilitet AI, afsløret via et blogindlæg anden udgave af systemet maskinlæring Stabil diffusion, som er i stand til at syntetisere og ændre billeder baseret på en foreslået skabelon eller en tekstbeskrivelse på naturligt sprog.

Stabil diffusion er en maskinlæringsmodel udviklet af Stability AI at generere digitale billeder af høj kvalitet ud fra naturlige sprogbeskrivelser. Modellen kan bruges til forskellige opgaver, såsom generering af tekststyrede billed-til-billede-oversættelser og billedforbedring.

I modsætning til konkurrerende modeller som DALL-E er Stable Diffusion open source1 og begrænser ikke kunstigt de billeder, den producerer. Kritikere har rejst bekymringer om AI-etikken og hævdet, at modellen kan bruges til at skabe deepfakes.

Det dynamiske team af Robin Rombach (Stability AI) og Patrick Esser (Runway ML) fra CompVis Group ved LMU München ledet af prof. Dr. Björn Ommer, ledede den originale udgivelse af Stable Diffusion V1. De byggede videre på deres tidligere laboratoriearbejde med latente diffusionsmodeller og fik kritisk støtte fra LAION og Eleuther AI. Du kan læse mere om den originale udgivelse af Stable Diffusion V1 i vores tidligere blogindlæg. Robin leder nu indsatsen sammen med Katherine Crowson hos Stability AI for at skabe den næste generation af mediemodeller med vores bredere team.

Stable Diffusion 2.0 byder på en række gode forbedringer og funktioner sammenlignet med den originale V1-version.

Vigtigste nyheder om Stable Diffusion 2.0

I denne nye version, der præsenteres en ny billedsyntesemodel baseret på tekstbeskrivelse er blevet til "SD2.0-v", som understøtter generering af billeder med en opløsning på 768×768. Den nye model blev trænet ved hjælp af LAION-5B-samlingen på 5850 milliarder billeder med tekstbeskrivelser.

Modellen bruger det samme sæt parametre som Stable Diffusion 1.5-modellen, men adskiller sig ved overgangen til brugen af ​​en fundamentalt anderledes OpenCLIP-ViT/H encoder, som gjorde det muligt at forbedre kvaliteten af ​​de resulterende billeder markant.

A er udarbejdet forenklet version af SD2.0-basen, trænet på 256×256 billeder ved hjælp af den klassiske støjforudsigelsesmodel og understøtter generering af billeder med en opløsning på 512×512.

Udover dette fremhæves det også muligheden for at bruge supersampling-teknologi er givet (Superopløsning) for at øge opløsningen af ​​det originale billede uden at reducere kvaliteten, ved hjælp af rumlig skalering og detaljerekonstruktionsalgoritmer.

Af de andre ændringer der skiller sig ud fra denne nye version:

  • Den medfølgende billedbehandlingsmodel (SD20-upscaler) understøtter 4x forstørrelse, hvilket gør det muligt at generere billeder med en opløsning på 2048×2048.
  • Stable Diffusion 2.0 inkluderer også en Upscaler Diffusion-model, der forbedrer billedopløsningen med en faktor på 4.
  • SD2.0-depth2img-modellen foreslås, som tager højde for dybden og det rumlige arrangement af objekter. MiDaS-systemet bruges til at estimere den monokulære dybde.
  • Ny tekstdrevet indvendig malingsmodel, finjusteret på den nye Stable Diffusion 2.0 tekst-til-billede base
  • Modellen giver dig mulighed for at syntetisere nye billeder ved hjælp af et andet billede som skabelon, som kan være radikalt anderledes end originalen, men bevarer den overordnede komposition og dybde. For eksempel kan du bruge en persons positur på et billede til at danne en anden karakter i samme positur.
  • Opdateret model til ændring af billeder: SD 2.0-inpainting, som gør det muligt at bruge teksttip til at erstatte og ændre dele af billedet.
  • Modellerne er optimeret til brug på almindelige systemer med en GPU.

Endelig ja du er interesseret i at kunne vide mere om det, skal du vide, at koden til det neurale netværkstrænings- og billedbehandlingsværktøj er skrevet i Python ved hjælp af PyTorch-rammen og udgivet under MIT-licensen.

Foruddannede modeller er åbne under Creative ML OpenRAIL-M tilladende licens, som tillader kommerciel brug.

kilde: https://stability.ai


Efterlad din kommentar

Din e-mailadresse vil ikke blive offentliggjort. Obligatoriske felter er markeret med *

*

*

  1. Ansvarlig for dataene: Miguel Ángel Gatón
  2. Formålet med dataene: Control SPAM, management af kommentarer.
  3. Legitimering: Dit samtykke
  4. Kommunikation af dataene: Dataene vil ikke blive kommunikeret til tredjemand, undtagen ved juridisk forpligtelse.
  5. Datalagring: Database hostet af Occentus Networks (EU)
  6. Rettigheder: Du kan til enhver tid begrænse, gendanne og slette dine oplysninger.