Modelos OpenAI mais recentes já desenham e reconhecem objetos de forma mais eficiente

Pesquisadores da OpenAI desenvolveram duas redes neurais Eles podem desenhar objetos conforme a orientação do usuário em linguagem natural e descrever imagens com alto grau de precisão.

Os projetos que eles se tornaram conhecidos há poucos dias ampliar a gama de tarefas às quais a inteligência artificial pode ser aplicada e avançar ainda mais a meta da comunidade de pesquisa de IA de criar modelos mais versáteis que requerem menos ajustes manuais por engenheiros para produzir resultados precisos.

DALL E, a primeira rede neural Novo, é uma versão miniaturizada do modelo de processamento de linguagem natural GPT-3 que o OpenAI estreou em 2020. GPT-3, uma das redes neurais mais complexas criadas até hoje, pode gerar texto e até mesmo código de software a partir de descrições simples. DALL E aplica a mesma capacidade de desenhar imagens conforme orientado pelo usuário.

A capacidade excepcional do modelo é que pode produzir imagens mesmo em resposta a descrições que encontra pela primeira vez e que normalmente são difíceis para uma IA interpretar.

Durante o teste por pesquisadores da OpenAI eles foram capazes de demonstrar que o modelo pode gerar desenhos com sucesso em resposta a descrições como, além disso, o modelo é capaz de renderizar imagens nos mais diversos estilos.

Os pesquisadores ddecidiu testar exatamente o quão versátil a IA é fazendo-o lidar com várias tarefas adicionais de dificuldade variada.

Em uma série de experimentos, o modelo mostrou-se altamente eficiente, tendo a capacidade de gerar a mesma imagem de múltiplos ângulos e em diferentes níveis de resolução.

Outro teste de IA também mostrou que o modelo é sofisticado o suficiente para personalizar detalhes individuais da imagem que deve gerar.

“O controle simultâneo de vários objetos, seus atributos e suas relações espaciais apresenta um novo desafio”, escreveram os pesquisadores da OpenAI em um blog. "Por exemplo, considere a frase" um ouriço com um chapéu vermelho, luvas amarelas, uma camisa azul e calças verdes. " Para interpretar corretamente esta frase, DALL · E deve não só compor corretamente cada vestimenta com o animal, mas também formar as associações (chapéu, vermelho), (luvas, amarelo), (camisa, azul) e (calça, verde) sem misturá-los «.

A outra rede neural recentemente detalhado OpenAI, Clip, concentra-se no reconhecimento de objetos em imagens existentes em vez de desenhar novos.

E embora já existam modelos de visão computacional que classificam as imagens dessa forma, é importante notar que a maioria deles consegue identificar apenas um pequeno conjunto de objetos para os quais são especificamente treinados.

Uma IA que classifica animais em fotos da vida selvagem, por exemplo, deve ser treinada em um grande número de fotos da vida selvagem para produzir resultados precisos. O que distingue o Clip do OpenAI é que ele é capaz de criar uma descrição de um objeto que não encontrou antes.

A versatilidade do Clip é fruto de uma nova abordagem de treinamento que o laboratório desenvolveu para construir o modelo.

Para o processo de treinamento, OpenAI não usou um conjunto de dados de imagem desenhado manualmente, mas imagens obtidos na web pública e suas legendas anexas. As legendas permitiram que Clip construísse um amplo léxico de palavras associadas a diferentes tipos de objetos, associações que ele poderia usar para descrever objetos que não tinha visto antes.

"O aprendizado profundo requer uma grande quantidade de dados, e os modelos de visão tradicionalmente são treinados em conjuntos de dados rotulados manualmente que são caros para construir e fornecem supervisão para um número limitado de conceitos visuais predeterminados", detalhou os pesquisadores por trás Grampo. "Em vez disso, o CLIP aprende com os pares de texto e imagem que já estão disponíveis publicamente na Internet."

Finalmente, se você quiser saber mais sobre isso Sobre os modelos OpenAI, você pode verificar os detalhes no link a seguir.


O conteúdo do artigo segue nossos princípios de Ética editorial. Para relatar um erro, clique Clique aqui.

Seja o primeiro a comentar

Deixe um comentário

Seu endereço de email não será publicado. Campos obrigatórios são marcados com *

*

*

  1. Responsável pelos dados: Miguel Ángel Gatón
  2. Finalidade dos dados: Controle de SPAM, gerenciamento de comentários.
  3. Legitimação: Seu consentimento
  4. Comunicação de dados: Os dados não serão comunicados a terceiros, exceto por obrigação legal.
  5. Armazenamento de dados: banco de dados hospedado pela Occentus Networks (UE)
  6. Direitos: A qualquer momento você pode limitar, recuperar e excluir suas informações.