Stable Diffusion 2.0, un'intelligenza artificiale in grado di sintetizzare e modificare le immagini

Diffusione stabile 2.0

Immagine generata con Stable Diffusion 2.0

recentemente IA di stabilità, svelata tramite un post sul blog la seconda edizione del sistema apprendimento automatico Diffusione stabile, che è in grado di sintetizzare e modificare le immagini sulla base di un modello suggerito o di una descrizione testuale in linguaggio naturale.

La diffusione stabile è un modello di apprendimento automatico sviluppato da stabilità AI per generare immagini digitali di alta qualità da descrizioni in linguaggio naturale. Il modello può essere utilizzato per diverse attività, come la generazione di traduzioni da immagine a immagine guidate da testo e il miglioramento delle immagini.

A differenza dei modelli concorrenti come DALL-E, Stable Diffusion è open source1 e non limita artificialmente le immagini che produce. I critici hanno sollevato preoccupazioni sull'etica dell'IA, sostenendo che il modello può essere utilizzato per creare deepfake.

Il dinamico team di Robin Rombach (Stability AI) e Patrick Esser (Runway ML) del CompVis Group della LMU di Monaco, guidato dal Prof. Dr. Björn Ommer, ha guidato la versione originale di Stable Diffusion V1. Hanno costruito il loro precedente lavoro di laboratorio con modelli di diffusione latente e hanno ottenuto un supporto fondamentale da LAION e Eleuther AI. Puoi leggere di più sulla versione originale di Stable Diffusion V1 nel nostro precedente post sul blog. Robin sta ora guidando lo sforzo con Katherine Crowson presso Stability AI per creare la prossima generazione di modelli multimediali con il nostro team più ampio.

Stable Diffusion 2.0 offre una serie di grandi miglioramenti e funzionalità rispetto alla versione V1 originale.

Principali novità di Diffusione Stabile 2.0

In questa nuova versione che viene presentata è stato creato un nuovo modello di sintesi delle immagini basato sulla descrizione testuale "SD2.0-v", che supporta la generazione di immagini con una risoluzione di 768×768. Il nuovo modello è stato addestrato utilizzando la raccolta LAION-5B di 5850 miliardi di immagini con descrizioni testuali.

Il modello utilizza lo stesso set di parametri del modello Stable Diffusion 1.5, ma differisce per il passaggio all'uso di un codificatore OpenCLIP-ViT/H fondamentalmente diverso, che ha permesso di migliorare significativamente la qualità delle immagini risultanti.

A è stato preparato versione semplificata di base SD2.0, addestrato su immagini 256×256 utilizzando il classico modello di previsione del rumore e supportando la generazione di immagini con una risoluzione di 512×512.

Oltre a questo, si evidenzia anche che è prevista la possibilità di utilizzare la tecnologia di supersampling (Super Resolution) per aumentare la risoluzione dell'immagine originale senza ridurne la qualità, utilizzando algoritmi di ridimensionamento spaziale e ricostruzione dei dettagli.

Delle altre modifiche che si distinguono da questa nuova versione:

  • Il modello di elaborazione delle immagini fornito (SD20-upscaler) supporta l'ingrandimento 4x, consentendo di generare immagini con una risoluzione di 2048×2048.
  • Stable Diffusion 2.0 include anche un modello Upscaler Diffusion che migliora la risoluzione dell'immagine di un fattore 4.
  • Viene proposto il modello SD2.0-depth2img, che tiene conto della profondità e della disposizione spaziale degli oggetti. Il sistema MiDaS viene utilizzato per stimare la profondità monoculare.
  • Nuovo modello di vernice per interni basato su testo, messo a punto sulla nuova base di testo-immagine Stable Diffusion 2.0
  • Il modello consente di sintetizzare nuove immagini utilizzando un'altra immagine come modello, che può essere radicalmente diversa dall'originale, ma conserva la composizione e la profondità complessive. Ad esempio, puoi utilizzare la posa di una persona in una foto per formare un altro personaggio nella stessa posa.
  • Modello aggiornato per la modifica delle immagini: SD 2.0-inpainting, che consente di utilizzare suggerimenti di testo per sostituire e modificare parti dell'immagine.
  • I modelli sono stati ottimizzati per l'uso su sistemi mainstream con una GPU.

Finalmente sì ti interessa saperne di più, dovresti sapere che il codice per gli strumenti di addestramento e imaging della rete neurale è scritto in Python utilizzando il framework PyTorch e rilasciato con licenza MIT.

I modelli pre-addestrati sono aperti con licenza permissiva Creative ML OpenRAIL-M, che ne consente l'uso commerciale.

fonte: https://stability.ai


Il contenuto dell'articolo aderisce ai nostri principi di etica editoriale. Per segnalare un errore fare clic su qui.

Puoi essere il primo a lasciare un commento

Lascia un tuo commento

L'indirizzo email non verrà pubblicato. I campi obbligatori sono contrassegnati con *

*

*

  1. Responsabile dei dati: Miguel Ángel Gatón
  2. Scopo dei dati: controllo SPAM, gestione commenti.
  3. Legittimazione: il tuo consenso
  4. Comunicazione dei dati: I dati non saranno oggetto di comunicazione a terzi se non per obbligo di legge.
  5. Archiviazione dati: database ospitato da Occentus Networks (UE)
  6. Diritti: in qualsiasi momento puoi limitare, recuperare ed eliminare le tue informazioni.