Stable Diffusion 2.0, een AI die beelden kan synthetiseren en wijzigen

Stabiele verspreiding 2.0

Afbeelding gegenereerd met Stable Diffusion 2.0

onlangs Stabiliteits-AI, onthuld via een blogpost de tweede editie van het systeem machine leren Stabiele diffusie, dat afbeeldingen kan synthetiseren en wijzigen op basis van een voorgesteld sjabloon of een tekstbeschrijving in natuurlijke taal.

Stabiele diffusie is een machine learning-model ontwikkeld door Stability AI om digitale afbeeldingen van hoge kwaliteit te genereren op basis van beschrijvingen in natuurlijke taal. Het model kan voor verschillende taken worden gebruikt, zoals het genereren van tekstgeleide beeld-naar-beeldvertalingen en beeldverbetering.

In tegenstelling tot concurrerende modellen zoals DALL-E, is Stable Diffusion open source1 en worden de geproduceerde afbeeldingen niet kunstmatig beperkt. Critici hebben hun bezorgdheid geuit over de ethiek van AI en beweren dat het model kan worden gebruikt om deepfakes te creëren.

Het dynamische team van Robin Rombach (Stability AI) en Patrick Esser (Runway ML) van de CompVis Group op LMU München onder leiding van prof. dr. Björn Ommer, leidde de oorspronkelijke release van Stable Diffusion V1. Ze bouwden voort op hun eerdere laboratoriumwerk met latente diffusiemodellen en kregen kritische steun van LAION en Eleuther AI. Je kunt meer lezen over de oorspronkelijke release van Stable Diffusion V1 in onze vorige blogpost. Robin leidt nu de inspanning met Katherine Crowson bij Stability AI om de volgende generatie mediamodellen te creëren met ons bredere team.

Stable Diffusion 2.0 biedt een aantal geweldige verbeteringen en functies in vergelijking met de originele V1-versie.

Belangrijkste nieuws van Stable Diffusion 2.0

In deze nieuwe versie die wordt gepresenteerd er is een nieuw beeldsynthesemodel gemaakt op basis van tekstbeschrijving "SD2.0-v", dat het genereren van afbeeldingen met een resolutie van 768×768 ondersteunt. Het nieuwe model is getraind met behulp van de LAION-5B-collectie van 5850 miljard afbeeldingen met tekstbeschrijvingen.

Het model gebruikt dezelfde set parameters als het Stable Diffusion 1.5-model, maar verschilt door de overgang naar het gebruik van een fundamenteel andere OpenCLIP-ViT/H-encoder, waardoor de kwaliteit van de resulterende beelden aanzienlijk kon worden verbeterd.

A is voorbereid vereenvoudigde versie van SD2.0-base, getraind op 256 × 256 afbeeldingen met behulp van het klassieke ruisvoorspellingsmodel en ondersteunt het genereren van afbeeldingen met een resolutie van 512 × 512.

Daarnaast wordt er ook op gewezen dat: de mogelijkheid om supersampling-technologie te gebruiken wordt geboden (Superresolutie) om de resolutie van het originele beeld te verhogen zonder de kwaliteit te verminderen, met behulp van ruimtelijke schaling en algoritmen voor detailreconstructie.

Van de andere veranderingen die zich onderscheiden van deze nieuwe versie:

  • Het meegeleverde beeldverwerkingsmodel (SD20-upscaler) ondersteunt 4x vergroting, waardoor beelden met een resolutie van 2048×2048 kunnen worden gegenereerd.
  • Stable Diffusion 2.0 bevat ook een Upscaler Diffusion-model dat de beeldresolutie met een factor 4 verbetert.
  • Het model SD2.0-depth2img wordt voorgesteld, dat rekening houdt met de diepte en ruimtelijke ordening van objecten. Het MiDaS-systeem wordt gebruikt om de monoculaire diepte te schatten.
  • Nieuw tekstgestuurd interieurverfmodel, verfijnd op de nieuwe Stable Diffusion 2.0 tekst-naar-afbeelding-basis
  • Met het model kunt u nieuwe afbeeldingen synthetiseren met een andere afbeelding als sjabloon, die radicaal kan verschillen van het origineel, maar de algehele compositie en diepte behoudt. U kunt bijvoorbeeld de pose van een persoon op een foto gebruiken om een ​​ander personage in dezelfde pose te vormen.
  • Bijgewerkt model voor het wijzigen van afbeeldingen: SD 2.0-inpainting, waarmee teksthints kunnen worden gebruikt om delen van de afbeelding te vervangen en te wijzigen.
  • De modellen zijn geoptimaliseerd voor gebruik op reguliere systemen met een GPU.

Eindelijk ja je bent geïnteresseerd om er meer over te weten, moet u weten dat de code voor de trainings- en beeldvormingstools voor neurale netwerken in Python is geschreven met behulp van het PyTorch-framework en is vrijgegeven onder de MIT-licentie.

Vooraf getrainde modellen zijn open onder de Creative ML OpenRAIL-M permissieve licentie, die commercieel gebruik toestaat.

bron: https://stability.ai


Laat je reactie achter

Uw e-mailadres wordt niet gepubliceerd. Verplichte velden zijn gemarkeerd met *

*

*

  1. Verantwoordelijk voor de gegevens: Miguel Ángel Gatón
  2. Doel van de gegevens: Controle SPAM, commentaarbeheer.
  3. Legitimatie: uw toestemming
  4. Mededeling van de gegevens: De gegevens worden niet aan derden meegedeeld, behalve op grond van wettelijke verplichting.
  5. Gegevensopslag: database gehost door Occentus Networks (EU)
  6. Rechten: u kunt uw gegevens op elk moment beperken, herstellen en verwijderen.