Stable Diffusion 2.0, en AI som er i stand til å syntetisere og endre bilder

Stabil diffusjon 2.0

Bilde generert med Stable Diffusion 2.0

nylig Stabilitet AI, avduket via et blogginnlegg den andre utgaven av systemet maskinlæring Stabil diffusjon, som er i stand til å syntetisere og modifisere bilder basert på en foreslått mal eller en tekstbeskrivelse på naturlig språk.

Stabil diffusjon er en maskinlæringsmodell utviklet av Stability AI å generere digitale bilder av høy kvalitet fra beskrivelser av naturlige språk. Modellen kan brukes til ulike oppgaver, som å generere tekststyrte bilde-til-bilde-oversettelser og bildeforbedring.

I motsetning til konkurrerende modeller som DALL-E, er Stable Diffusion åpen kildekode1 og begrenser ikke kunstig bildene den produserer. Kritikere har reist bekymringer om etikken til AI, og hevdet at modellen kan brukes til å lage deepfakes.

Det dynamiske teamet til Robin Rombach (Stability AI) og Patrick Esser (Runway ML) fra CompVis Group ved LMU München ledet av prof. Dr. Björn Ommer, ledet den originale utgivelsen av Stable Diffusion V1. De bygde på sitt tidligere laboratoriearbeid med latente diffusjonsmodeller og fikk kritisk støtte fra LAION og Eleuther AI. Du kan lese mer om den originale utgivelsen av Stable Diffusion V1 i vårt forrige blogginnlegg. Robin leder nå arbeidet sammen med Katherine Crowson ved Stability AI for å skape neste generasjon mediemodeller med vårt bredere team.

Stable Diffusion 2.0 tilbyr en rekke flotte forbedringer og funksjoner sammenlignet med den originale V1-versjonen.

Hovednyhetene til Stable Diffusion 2.0

I denne nye versjonen som presenteres en ny bildesyntesemodell basert på tekstbeskrivelse er laget "SD2.0-v", som støtter generering av bilder med en oppløsning på 768×768. Den nye modellen ble opplært ved å bruke LAION-5B-samlingen på 5850 milliarder bilder med tekstbeskrivelser.

Modellen bruker det samme settet med parametere som Stable Diffusion 1.5-modellen, men skiller seg ved overgangen til bruk av en fundamentalt annen OpenCLIP-ViT/H-koder, som gjorde det mulig å forbedre kvaliteten på de resulterende bildene betydelig.

A er utarbeidet forenklet versjon av SD2.0-base, trent på 256×256 bilder ved hjelp av den klassiske støyprediksjonsmodellen og støtter generering av bilder med en oppløsning på 512×512.

I tillegg til dette fremheves det også at muligheten for å bruke supersampling-teknologi er gitt (Superoppløsning) for å øke oppløsningen til originalbildet uten å redusere kvaliteten, ved bruk av romlig skalering og detaljrekonstruksjonsalgoritmer.

Av de andre endringene som skiller seg ut fra denne nye versjonen:

  • Den medfølgende bildebehandlingsmodellen (SD20-oppskalering) støtter 4x forstørrelse, slik at bilder med en oppløsning på 2048×2048 kan genereres.
  • Stable Diffusion 2.0 inkluderer også en Upscaler Diffusion-modell som forbedrer bildeoppløsningen med en faktor på 4.
  • SD2.0-depth2img-modellen er foreslått, som tar hensyn til dybden og romlig arrangement av objekter. MiDaS-systemet brukes til å estimere den monokulære dybden.
  • Ny tekstdrevet interiørmalingsmodell, finjustert på den nye Stable Diffusion 2.0 tekst-til-bilde-basen
  • Modellen lar deg syntetisere nye bilder ved å bruke et annet bilde som mal, som kan være radikalt forskjellig fra originalen, men beholder den generelle komposisjonen og dybden. Du kan for eksempel bruke posituren til en person på et bilde for å danne en annen karakter i samme positur.
  • Oppdatert modell for modifisering av bilder: SD 2.0-inpainting, som gjør det mulig å bruke teksthint for å erstatte og endre deler av bildet.
  • Modellene er optimert for bruk på vanlige systemer med en GPU.

Endelig ja du er interessert i å vite mer om det, bør du vite at koden for opplærings- og bildeverktøy for nevrale nettverk er skrevet i Python ved å bruke PyTorch-rammeverket og utgitt under MIT-lisensen.

Forhåndsutdannede modeller er åpne under Creative ML OpenRAIL-M tillatende lisens, som tillater kommersiell bruk.

Fuente: https://stability.ai


Legg igjen kommentaren

Din e-postadresse vil ikke bli publisert. Obligatoriske felt er merket med *

*

*

  1. Ansvarlig for dataene: Miguel Ángel Gatón
  2. Formålet med dataene: Kontroller SPAM, kommentaradministrasjon.
  3. Legitimering: Ditt samtykke
  4. Kommunikasjon av dataene: Dataene vil ikke bli kommunisert til tredjeparter bortsett fra ved juridisk forpliktelse.
  5. Datalagring: Database vert for Occentus Networks (EU)
  6. Rettigheter: Når som helst kan du begrense, gjenopprette og slette informasjonen din.