LDM3D, il modello per la sintesi di immagini 3D di Intel e Blockade

LDM3D, il primo modello di diffusione del settore a offrire la mappatura della profondità per creare immagini 3D con viste a 360 gradi vivide e coinvolgenti.

Intel e Blockade Labs hanno rilasciato tramite un post sul blog informazioni sul loro sviluppo congiunto di un modello di apprendimento automatico chiamato "LDM3D» (Modello di diffusione latente per 3D) per generare immagini e mappe di profondità associati sulla base di descrizioni testuali in linguaggio naturale.

Il modello è stato addestrato utilizzando il set di dati aperto LAION-400M. Preparato dalla community LAION (Large-Scale Artificial Intelligence Open Network), che sviluppa strumenti, modelli e raccolte di dati per costruire sistemi di machine learning gratuiti. La collezione LAION-400M comprende 400 milioni di immagini con descrizioni testuali.

Oltre alle immagini e alle relative descrizioni testuali, le mappe di profondità vengono utilizzate anche durante l'addestramento del modello LDM3D, generato per ogni immagine utilizzando il sistema di apprendimento automatico DPT (Dense Prediction Transformer), che consente di prevedere la profondità relativa di ciascun pixel di un'immagine piatta.

Intel Labs, in collaborazione con Blockade Labs, ha introdotto il Latent Diffusion Model for 3D (LDM3D), il primo modello di diffusione del settore che offre la mappatura della profondità per creare immagini 3D con viste a 360 gradi vivide e coinvolgenti.

LDM3D ha il potenziale per rivoluzionare la creazione di contenuti, le applicazioni del metaverso e le esperienze digitali, trasformando un'ampia gamma di settori, dall'intrattenimento e dai giochi all'architettura e al design.

Rispetto alle tecnologie di previsione della profondità nella post-elaborazione, il modello LDM3D, inizialmente allenato profondamente, fornisce informazioni di profondità più accurate nella fase di generazione. Un altro vantaggio del modello è la capacità di generare dati di profondità senza aumentare il numero di parametri: il numero di parametri nel modello LDM3D è approssimativamente lo stesso dell'ultimo modello di diffusione stabile.

Per dimostrare capacità del modello L'applicazione DepthFusion è stata preparata, che consente di creare ambienti interattivi per la visualizzazione in modalità a 360 gradi da immagini RGB bidimensionali e mappe di profondità.

LDM3D consente agli utenti di generare un'immagine e una mappa di profondità da un dato messaggio di testo utilizzando quasi lo stesso numero di parametri.

LDM3D è scritto in TouchDesigner, un linguaggio di programmazione visuale adatto alla creazione di contenuti multimediali interattivi in tempo reale. Il modello LDM3D può anche essere utilizzato per generare e modificare immagini basate su un modello proposto, proiettare il risultato su una sfera per creare un ambiente, generare immagini basate su diverse posizioni dell'osservatore e generare video basati sul movimento della telecamera virtuale.

La tecnologia proposta dovrebbe avere un grande potenziale per creare nuovi metodi dell'interazione con l'utente, che può essere richiesta in vari settori, dall'intrattenimento e dai giochi all'architettura e al design. Ad esempio, LDM3D può essere utilizzato per creare musei interattivi e ambienti di realtà virtuale che generano ambienti dettagliati basati sui desideri del linguaggio naturale.

Lo sviluppo assomiglia al sistema di sintesi delle immagini Stable Diffusion, ma consente la formazione di contenuti visivi tridimensionali, come immagini panoramiche sferiche che possono essere visualizzate in modalità a 360 gradi. Sul lato pratico, il modello può essere utilizzato nei giochi e nei sistemi di realtà virtuale per la formazione interattiva di ambienti tridimensionali.

Il modello LDM3D viene addestrato su un supercomputer Intel AI con processori Intel® Xeon® e acceleratori AI Intel® Habana Gaudi®.

Per coloro che sono interessati al progetto, dovrebbero saperlo un modello pronto per l'uso è offerto per il download gratuito per i sistemi di apprendimento automatico, che può essere utilizzato con PyTorch e codice progettato per generare immagini utilizzando i modelli del progetto Stable Diffusion.

Vale la pena citare rispetto al modello è distribuito con licenza permissiva Creative ML OpenRAIL-M, che consente l'uso commerciale. La distribuzione con licenza aperta consente a ricercatori e sviluppatori interessati di migliorare il modello in base alle proprie esigenze e di ottimizzarlo per applicazioni altamente specializzate.

Infine, se sei interessato a saperne di più, puoi consultare i dettagli nel seguente link

DesdeLinux

LDM3D, il modello per la sintesi di immagini 3D di Intel e Blockade

Lascia un tuo commento Annulla risposta