LDM3D, o modelo para síntese de imagem 3D da Intel e Blockade 

LDM3D

LDM3D, o primeiro modelo de difusão do setor a oferecer mapeamento de profundidade para criar imagens 3D com visualizações de 360 ​​graus vívidas e imersivas.

Intel e Blockade Labs lançaram por meio de uma postagem de blog com informações sobre o desenvolvimento conjunto de um modelo de aprendizado de máquina chamado "LDM3D» (Modelo de Difusão Latente para 3D) para gerar imagens e mapas de profundidade associados com base em descrições de texto em linguagem natural.

O modelo foi treinado usando o conjunto de dados aberto LAION-400M. Elaborado pela comunidade LAION (Large-Scale Artificial Intelligence Open Network), que desenvolve ferramentas, modelos e coletas de dados para construir sistemas gratuitos de machine learning. A coleção LAION-400M inclui 400 milhões de imagens com descrições de texto.

Além das imagens e suas descrições textuais, mapas de profundidade também são usados ​​ao treinar o modelo LDM3D, gerado para cada imagem usando o sistema de aprendizado de máquina DPT (Dense Prediction Transformer), que permite prever a profundidade relativa de cada pixel de uma imagem plana.

O Intel Labs, em colaboração com o Blockade Labs, apresentou o Latent Diffusion Model for 3D (LDM3D), o primeiro modelo de difusão do setor que oferece mapeamento de profundidade para criar imagens 3D com visualizações de 360 ​​graus vívidas e imersivas.

O LDM3D tem o potencial de revolucionar a criação de conteúdo, aplicativos de metaverso e experiências digitais, transformando uma ampla gama de setores, desde entretenimento e jogos até arquitetura e design.

Comparado com tecnologias de previsão de profundidade em pós-processamento, o modelo LDM3D, inicialmente treinados profundamente, fornece informações de profundidade mais precisas na fase de geração. Outra vantagem do modelo é a capacidade de gerar dados de profundidade sem aumentar o número de parâmetros: o número de parâmetros no modelo LDM3D é aproximadamente o mesmo do último modelo de difusão estável.

Para demonstrar capacidades do modelo O aplicativo DepthFusion foi preparado permite criar ambientes interativos para visualização em modo 360 graus a partir de imagens RGB bidimensionais e mapas de profundidade.

O LDM3D permite aos usuários gerar uma imagem e um mapa de profundidade a partir de uma determinada mensagem de texto usando quase o mesmo número de parâmetros.

LDM3D é escrito em TouchDesigner, uma linguagem de programação visual adequada para a criação de conteúdo multimídia interativo em tempo real. O modelo LDM3D também pode ser usado para gerar e modificar imagens com base em um modelo proposto, projetar o resultado em uma esfera para criar um ambiente, gerar imagens com base em diferentes posições do observador e gerar vídeo com base no movimento da câmera virtual.

Supõe-se que a tecnologia proposta tenha grande potencial para criar novos métodos de interação com o usuário, que pode estar em demanda em vários setores, desde entretenimento e jogos até arquitetura e design. Por exemplo, LDM3D pode ser usado para criar museus interativos e ambientes de realidade virtual que geram ambientes detalhados com base em desejos de linguagem natural.

O desenvolvimento assemelha-se ao sistema de síntese de imagem Stable Diffusion, mas permite a formação de conteúdo visual tridimensional, como imagens panorâmicas esféricas que podem ser visualizadas no modo 360 graus. Do lado prático, o modelo pode ser utilizado em jogos e sistemas de realidade virtual para a formação interativa de ambientes tridimensionais.

O modelo LDM3D é treinado em um supercomputador Intel AI com processadores Intel® Xeon® e aceleradores Intel® Habana Gaudi® AI. 

Os interessados ​​no projeto devem saber que um modelo pronto para uso é oferecido para download gratuito para sistemas de aprendizado de máquina, que pode ser usado com PyTorch e código projetado para gerar imagens usando modelos do projeto Stable Diffusion.

Cabe mencionar do que o modelo é distribuído sob a licença permissiva Creative ML OpenRAIL-M, que permite uso comercial. A distribuição sob licença aberta permite que pesquisadores e desenvolvedores interessados ​​aprimorem o modelo de acordo com suas necessidades e o otimizem para aplicações altamente especializadas.

Por fim, se você tiver interesse em saber mais sobre o assunto, pode consultar os detalhes no link a seguir.