Point-E a nova solución OpenAI que xera imaxes 3D

Punto E

Point E é a nova IA de OpenAI para a xeración de imaxes

OpenAI ten capacidades ampliadas do teu software de texto aiimaxe de dúas ou tres dimensións con o lanzamento de Punto-E, un AI que xera imaxes 3D a partir de indicacións de texto. Segundo un documento de base de código publicado, Point-E non require un ordenador de gama alta para funcionar e pode xerar un modelo en menos de dous minutos cunha única GPU Nvidia V100.

Con isto podemos ver que os xeradores de modelos 3D poderían ser o próximo avance que tomará o mundo da IA ​​por asalto. OpenAI estivo moi activo este ano, xa que por exemplo aquí no blog falamos da empresa para os seus dous grandes proxectos: Dall-E 2 e ChatGPT.

Entre estas dúas plataformas masivas de IA, a compañía axudou a xerar imaxes e longas tiradas de texto a partir dunha simple mensaxe de texto, e agora a compañía volve cun terceiro concepto, que lanzou pouco antes do Nadal para espertar o interese de todos. Este terceiro concepto, denominado Point-E, segue un patrón similar, creando contido 3D a partir de indicacións sinxelas.

Anunciado nun documento de investigación publicado polo equipo de OpenAI, Point-E funciona en dúas etapas: primeiro usa unha IA de texto a imaxe converter a túa petición verbal nunha imaxe, a continuación, use unha segunda función para transformar esta imaxe nun modelo 3D.

Point-E é de código aberto e o código fonte está dispoñible en Github. Aínda así, pode ser un pouco complicado de probar, xa que os usuarios terán que estar bastante familiarizados coas ferramentas de liña de comandos e o sistema debe ter Python, a diferenza de ChatGPT, onde os usuarios poden rexistrarse nun sitio web e probar as súas habilidades.

Point-E non crea obxectos 3D no sentido tradicional, máis ben, xera nubes de puntos, é dicir, conxuntos discretos de puntos de datos no espazo que representan unha forma 3D, de aí a abreviatura descarada.

(A "E" en Point-E é a abreviatura de "eficiencia" xa que aparentemente é máis rápida que os enfoques anteriores para renderizar obxectos 3D). Segundo os desenvolvedores, as nubes de puntos son computacionalmente máis fáciles de sintetizar, pero non captan a forma nin a textura fina dun obxecto, o que é unha limitación importante de Point-E actualmente.

Para evitar esta limitación, o equipo de Point-E adestrou un sistema de IA adicional para converter as nubes de puntos de Point-E en mallas. (As mallas, as coleccións de vértices, bordos e caras que definen un obxecto, úsanse habitualmente no modelado e deseño 3D). Pero os investigadores sinalan no seu artigo que o ás veces o modelo pode perder partes dos obxectos, resultando en formas distorsionadas ou bloqueadas. Ademais do modelo de xeración de malla, que é autónomo, Point-E consta de dous modelos: un modelo de imaxe de texto e un modelo de imaxe 3D.

O modelo texto-imaxe, similar aos sistemas de xeración de obras de arte como DALL-E 2 e Stable Diffusion, adestrado en imaxes etiquetadas para comprender asociacións entre palabras e conceptos visuais. O modelo de imaxe 3D, por outra banda, alimentouse dun conxunto de imaxes asociadas a obxectos 3D para aprender a traducir de forma eficaz os dous. Cando se lle dá unha mensaxe de texto, por exemplo "unha engrenaxe imprimible en 3D, unha única engrenaxe de 7 cm de diámetro e 1 cm de grosor", o modelo de texto a imaxe de Point-E xera un obxecto sintético renderizado que vai á imaxe. - Modelo 3D.

Este último xera entón unha nube de puntos. Despois de adestrar os modelos nun conxunto de datos de "varios millóns" de obxectos 3D e metadatos asociados, Point-E foi capaz de producir nubes de puntos de cores que con frecuencia coinciden con indicacións de texto, din os investigadores de OpenAI. Non é perfecto: o modelo de imaxe 3D de Point-E ás veces non entende a imaxe do modelo de imaxe de texto, o que resulta nunha forma que non coincide coa mensaxe de texto. Aínda así, é moito máis rápido que o estado da arte anterior, polo menos segundo o equipo de OpenAI.

O resultado está lonxe de acadar a calidade dunha representación 3D comercial nunha película ou nun videoxogo. Pero non se supón que debe ser. Unha vez que se introducen nunha aplicación 3D como Blender, pódense converter en mallas con textura que se parecen máis a imaxes 3D normais.

"Aínda que o noso método aínda non está á altura en termos de calidade de mostraxe, é unha ou dúas ordes de magnitude máis rápido, o que supón un compromiso práctico para algúns casos de uso", explican os investigadores de OpenAI no documento que describe o proxecto.

finalmente si estás interesado en poder coñecer o código fonte ou máis sobre Point-E pode consultar os detalles na páxina seguinte ligazón.


O contido do artigo adhírese aos nosos principios de ética editorial. Para informar dun erro faga clic en aquí.

Sexa o primeiro en opinar sobre

Deixa o teu comentario

Enderezo de correo electrónico non será publicado. Os campos obrigatorios están marcados con *

*

*

  1. Responsable dos datos: Miguel Ángel Gatón
  2. Finalidade dos datos: controlar SPAM, xestión de comentarios.
  3. Lexitimación: o seu consentimento
  4. Comunicación dos datos: os datos non serán comunicados a terceiros salvo obrigación legal.
  5. Almacenamento de datos: base de datos aloxada por Occentus Networks (UE)
  6. Dereitos: en calquera momento pode limitar, recuperar e eliminar a súa información.