PolyCoder, um código-fonte aberto que gera IA que pode superar o Codex 

Autor: @Laurent - Fotolia.com

Atualmente, Começamos a ver um aumento as diferentes soluções que começam a oferecer em relação ao geração de código de inteligência artificial (AI) e é que o campo de processamento de linguagem natural (NLP) abriu caminho para uma série de AIs geradoras de código em várias linguagens de programação.

Dos quais podemos destacar por exemplo GitHub Copilot, AlphaCode e Codex e ao qual podemos agora adicionar uma nova solução da mão do pesquisadores da Carnegie Mellon University que introduziu recentemente o "PolyCoder", um gerador de código baseado no modelo de linguagem GPT-2 da OpenAI que foi treinado em um banco de dados de código de 249 GB em 12 linguagens de programação.

Sobre o PolyCoder

Os autores do PolyCoder afirmam que é capaz de escrever C com mais precisão do que qualquer modelo conhecido, incluindo Codex.

O código gerador de IA, pode escrever código-fonte em diferentes linguagens de programação Logo de cara, ele promete reduzir os custos de desenvolvimento de software enquanto permite que os desenvolvedores se concentrem em tarefas menos repetitivas e criativas.

O PolyCoder foi alimentado por dados de vários repositórios do GitHub, abrangendo 12 linguagens de programação populares: C, C#, C++, Go, Java, JavaScript, PHP, Python, Ruby, Rust, Scala e TypeScript.

O conjunto de dados não filtrado totalizou 631 GB de dados e 38,9 milhões de arquivos. A equipe disse que optou por treinar PolyCoder com GPT-2 devido a restrições orçamentárias. O PolyCoder está disponível como código aberto e os pesquisadores esperam que ele possa democratizar a pesquisa no campo da geração de código de IA, que até agora era dominado por empresas bem financiadas.

Os pesquisadores acreditam que o PolyCoder ele funciona melhor do que outros modelos na geração de código na linguagem C. No entanto, o Codex sempre o superou em outros idiomas. "O PolyCoder supera dramaticamente o Codex e todos os outros modelos na linguagem C.

“Quando o Copilot foi lançado no GitHub no verão passado, ficou claro que esses modelos de código de linguagem muito grandes podem ser muito úteis para ajudar os desenvolvedores e aumentar sua produtividade. Mas nenhum modelo sequer próximo a essa escala estava disponível publicamente", disseram os pesquisadores ao VentureBeat por e-mail. “Então [PolyCoder] começou com Vincent tentando descobrir qual era o maior modelo que poderia ser treinado em nosso servidor de laboratório, que acabou sendo 2700 bilhões de parâmetros… e esse modelo estava uma liga à frente de outros modelos orientados a código que tínhamos . estavam disponíveis publicamente na época”.

Ao comparar apenas os modelos de código aberto, O PolyCoder supera o modelo GPT-Neo 2.7B de tamanho semelhante em C, JavaScript, Rust, Scala e TypeScript." eles apontam "Nos outros 11 idiomas, todos os outros modelos de código aberto, incluindo o nosso, são significativamente piores (maior perplexidade) do que o Codex", acrescentaram os pesquisadores da CMU.

Com isso, o PolyCoder se posiciona como uma solução muito interessante, pois enquanto laboratórios de pesquisa como o OpenAI de Elon Musk e o DeepMind da Alphabet desenvolveram uma poderosa IA geradora de código, muitos dos sistemas de maior sucesso não estão disponíveis em código aberto. As empresas de baixa renda não têm acesso a ele e essa situação limita suas pesquisas na área.

Por exemplo, os dados de treinamento do OpenAI Codex, que potencializa o recurso Copilot do GitHub, não foram divulgados, impedindo os pesquisadores de refinar o modelo de IA ou estudar certos aspectos dele, como interoperabilidade.

“As grandes empresas de tecnologia não estão divulgando publicamente seus modelos, o que está realmente impedindo a pesquisa científica e a democratização de modelos de códigos de linguagem tão grandes”, disseram os pesquisadores. “Até certo ponto, esperamos que nossos esforços de código aberto convençam outros a fazer o mesmo. Mas o quadro geral é que a comunidade deve ser capaz de treinar esses modelos por conta própria. Nosso modelo ultrapassou o limite do que você pode treinar em um único servidor – qualquer coisa maior requer um pool de servidores, o que aumenta drasticamente o custo.”

Finalmente se você estiver interessado em saber mais sobre isso, você pode verificar os detalhes no link a seguir


Deixe um comentário

Seu endereço de email não será publicado. Campos obrigatórios são marcados com *

*

*

  1. Responsável pelos dados: Miguel Ángel Gatón
  2. Finalidade dos dados: Controle de SPAM, gerenciamento de comentários.
  3. Legitimação: Seu consentimento
  4. Comunicação de dados: Os dados não serão comunicados a terceiros, exceto por obrigação legal.
  5. Armazenamento de dados: banco de dados hospedado pela Occentus Networks (UE)
  6. Direitos: A qualquer momento você pode limitar, recuperar e excluir suas informações.