Stable Diffusion 2.0, en AI som kan syntetisera och modifiera bilder

Stabil diffusion 2.0

Bild genererad med Stable Diffusion 2.0

nyligen Stabilitets AI, avslöjad via ett blogginlägg den andra upplagan av systemet maskininlärning Stabil diffusion, som kan syntetisera och modifiera bilder baserat på en föreslagen mall eller en textbeskrivning på naturligt språk.

Stabil diffusion är en maskininlärningsmodell utvecklad av Stability AI att generera högkvalitativa digitala bilder från naturliga språkbeskrivningar. Modellen kan användas för olika uppgifter, som att generera textstyrda bild-till-bild översättningar och bildförbättring.

Till skillnad från konkurrerande modeller som DALL-E är Stable Diffusion öppen källkod1 och begränsar inte på konstgjord väg de bilder den producerar. Kritiker har tagit upp oro över AI-etiken och hävdat att modellen kan användas för att skapa djupförfalskningar.

Det dynamiska teamet av Robin Rombach (Stability AI) och Patrick Esser (Runway ML) från CompVis Group vid LMU München ledd av prof. Dr. Björn Ommer, ledde den ursprungliga releasen av Stable Diffusion V1. De byggde på sitt tidigare labbarbete med latenta diffusionsmodeller och fick kritiskt stöd från LAION och Eleuther AI. Du kan läsa mer om den ursprungliga versionen av Stable Diffusion V1 i vårt tidigare blogginlägg. Robin leder nu arbetet med Katherine Crowson på Stability AI för att skapa nästa generations mediemodeller med vårt bredare team.

Stable Diffusion 2.0 erbjuder ett antal fantastiska förbättringar och funktioner jämfört med den ursprungliga V1-versionen.

Huvudnyheter för Stable Diffusion 2.0

I denna nya version som presenteras en ny bildsyntesmodell baserad på textbeskrivning har skapats "SD2.0-v", som stöder generering av bilder med en upplösning på 768×768. Den nya modellen tränades med hjälp av LAION-5B-samlingen på 5850 miljarder bilder med textbeskrivningar.

Modellen använder samma uppsättning parametrar som Stable Diffusion 1.5-modellen, men skiljer sig genom övergången till användningen av en fundamentalt annorlunda OpenCLIP-ViT/H-kodare, vilket gjorde det möjligt att avsevärt förbättra kvaliteten på de resulterande bilderna.

A har förberetts förenklad version av SD2.0-bas, tränad på 256×256 bilder med den klassiska brusprediktionsmodellen och stödjer genereringen av bilder med en upplösning på 512×512.

Utöver detta framhålls också att möjligheten att använda supersamplingsteknik tillhandahålls (Super Resolution) för att öka upplösningen på originalbilden utan att minska kvaliteten, med hjälp av rumslig skalning och detaljrekonstruktionsalgoritmer.

Av de andra förändringarna som sticker ut från den här nya versionen:

  • Den medföljande bildbehandlingsmodellen (SD20-uppskalare) stöder 4x förstoring, vilket gör att bilder med en upplösning på 2048×2048 kan genereras.
  • Stable Diffusion 2.0 inkluderar också en Upscaler Diffusion-modell som förbättrar bildupplösningen med en faktor 4.
  • Modellen SD2.0-depth2img föreslås, som tar hänsyn till objektens djup och rumsliga arrangemang. MiDaS-systemet används för att uppskatta det monokulära djupet.
  • Ny textdriven modell för interiörfärg, finjusterad på den nya Stable Diffusion 2.0 text-till-bild-basen
  • Modellen låter dig syntetisera nya bilder med en annan bild som mall, som kan skilja sig radikalt från originalet, men behåller den övergripande kompositionen och djupet. Du kan till exempel använda en persons pose på ett foto för att bilda en annan karaktär i samma pose.
  • Uppdaterad modell för att ändra bilder: SD 2.0-inpainting, som gör det möjligt att använda texttips för att ersätta och ändra delar av bilden.
  • Modellerna har optimerats för användning på vanliga system med en GPU.

Äntligen ja du är intresserad av att veta mer om det, bör du veta att koden för utbildnings- och bildverktygen för neurala nätverk är skriven i Python med PyTorch-ramverket och släppt under MIT-licensen.

Förutbildade modeller är öppna under Creative ML OpenRAIL-M tillåtande licens, som tillåter kommersiell användning.

Fuente: https://stability.ai


Lämna din kommentar

Din e-postadress kommer inte att publiceras. Obligatoriska fält är markerade med *

*

*

  1. Ansvarig för uppgifterna: Miguel Ángel Gatón
  2. Syftet med uppgifterna: Kontrollera skräppost, kommentarhantering.
  3. Legitimering: Ditt samtycke
  4. Kommunikation av uppgifterna: Uppgifterna kommer inte att kommuniceras till tredje part förutom enligt laglig skyldighet.
  5. Datalagring: databas värd för Occentus Networks (EU)
  6. Rättigheter: När som helst kan du begränsa, återställa och radera din information.