Point E é a nova IA da OpenAI para geração de imagens
OpenAI expandiu recursos do seu software de texto aiimagem bidimensional a tridimensional com o lançamento de Ponto-E, uma IA que gera imagens 3D a partir de prompts de texto. De acordo com um documento de base de código publicado, o Point-E não requer um computador de última geração para ser executado e pode gerar um modelo em menos de dois minutos com uma única GPU Nvidia V100.
Com isso, podemos ver que os geradores de modelos 3D podem ser o próximo avanço que conquistará o mundo da IA. A OpenAI tem estado muito ativa este ano, pois por exemplo aqui no blog falamos da empresa para os seus dois grandes projetos: Dall-E 2 e ChatGPT.
Entre essas duas enormes plataformas de IA, a empresa ajudou a gerar imagens e textos longos a partir de uma simples mensagem de texto, e agora a empresa está de volta com um terceiro conceito, que lançou pouco antes do Natal para despertar o interesse de todos. Este terceiro conceito, apelidado de Point-E, segue um padrão semelhante, criando conteúdo 3D a partir de prompts simples.
Anunciado em um trabalho de pesquisa publicado pela equipe OpenAI, O Point-E funciona em duas etapas: primeiro usa uma IA de conversão de texto em imagem para transformar seu pedido verbal em uma imagem, em seguida, use uma segunda função para transformar esta imagem em um modelo 3D.
Point-E é open source e o código-fonte está disponível no Github. Ainda assim, pode ser um pouco complicado tentar, pois os usuários precisarão estar bastante familiarizados com as ferramentas de linha de comando e o sistema precisa ter o Python, ao contrário do ChatGPT, onde os usuários podem se inscrever em um site e testar suas habilidades.
Point-E não cria objetos 3D no sentido tradicional, em vez disso, gera nuvens de pontos, ou seja, conjuntos discretos de pontos de dados no espaço que representam uma forma 3D, daí a abreviação atrevida.
(O "E" em Point-E é a abreviação de "eficiência", pois é aparentemente mais rápido do que as abordagens anteriores para renderizar objetos 3D.) De acordo com os desenvolvedores, as nuvens de pontos são computacionalmente mais fáceis de sintetizar, mas não capturam a forma ou a textura fina de um objeto, o que é uma grande limitação do Point-E atualmente.
Para evitar esta limitação, a equipe do Point-E treinou um sistema de IA adicional para converter as nuvens de pontos do Point-E em malhas. (Malhas, as coleções de vértices, arestas e faces que definem um objeto, são comumente usadas em modelagem e design 3D.) Mas os pesquisadores eles apontam em seu artigo que o o modelo às vezes pode perder partes de objetos, resultando em formas distorcidas ou bloqueadas. Além do modelo de geração de malha, que é independente, o Point-E consiste em dois modelos: um modelo de imagem de texto e um modelo de imagem 3D.
O modelo texto-imagem, semelhante aos sistemas de geração de obras de arte como DALL-E 2 e Stable Diffusion, treinado em imagens rotuladas para entender associações entre palavras e conceitos visuais. O modelo de imagem 3D, por outro lado, foi alimentado com um conjunto de imagens associadas a objetos 3D para aprender como traduzir efetivamente os dois. Quando recebe uma mensagem de texto, por exemplo "uma engrenagem imprimível em 3D, uma única engrenagem de 7 cm de diâmetro e 1 cm de espessura", o modelo de texto para imagem da Point-E gera um objeto sintético renderizado que vai para a imagem. -modelo 3D.
Este último então gera uma nuvem de pontos. Depois de treinar os modelos em um conjunto de dados de “vários milhões” de objetos 3D e metadados associados, o Point-E foi capaz de produzir nuvens de pontos coloridos que frequentemente correspondiam a prompts de texto, dizem os pesquisadores da OpenAI. Não é perfeito: o modelo de imagem 3D do Point-E às vezes não entende a imagem do modelo de imagem de texto, resultando em uma forma que não corresponde à mensagem de texto. Ainda assim, é muito mais rápido que o estado da arte anterior, pelo menos de acordo com a equipe da OpenAI.
O resultado está longe de alcançar a qualidade de uma renderização 3D comercial em um filme ou videogame. Mas não é para ser. Depois que são inseridos em um aplicativo 3D como o Blender, eles podem ser transformados em malhas texturizadas que se parecem mais com imagens 3D normais.
«Aunque nuestro método aún no está a la altura en términos de calidad de muestreo, es uno o dos órdenes de magnitud más rápido, lo que es un compromiso práctico para algunos casos de uso», explican los investigadores de OpenAI en el documento que describe o projeto.
Enfim sim você está interessado em saber o código fonte ou mais sobre o Point-E você pode conferir os detalhes no link a seguir