O copiloto, assistente de IA do GitHub recebeu fortes críticas da comunidade de código aberto

Faz alguns dias compartilhamos aqui no blog as novidades do Copilot, que é um assistente de inteligência artificial para escrever código GitHub e que apresento basicamente como uma ferramenta de ajuda para programadores.

Mesmo que o copiloto difere dos sistemas de preenchimento de código tradicional por causa da capacidade de formar blocos de código bastante complexos, até funções prontas sintetizadas levando em consideração o contexto atual. Já que Copilot é uma função de IA que aprendeu através de vários milhões de linhas de código e reconhece o que você está planejando com base na definição de uma função, etc.

Enquanto O copiloto representa uma grande economia de tempo devido ao aprendizado de milhões de linhas de código, o que começou a gerar temores de que a ferramenta pudesse contornar os requisitos de licenciamento de código aberto e violar as leis de direitos autorais.

Armin Ronacher, um desenvolvedor proeminente na comunidade de código aberto, ele é um dos desenvolvedores que ficou frustrado com a forma como o Copilot foi construído, como ele menciona que experimentou a ferramenta e postou uma captura de tela no Twitter na qual menciona que parecia estranho para ele que o copiloto, uma ferramenta de inteligência artificial que é comercializada, poderia produzir código protegido por direitos autorais.

Diante disso, alguns desenvolvedores começaram a se alarmar pelo uso de código público para treinar a inteligência artificial da ferramenta. Uma preocupação é que, se o Copilot reproduzir pedaços grandes o suficiente do código existente, ele poderá infringir direitos autorais ou lavar o código-fonte aberto para uso comercial sem a licença adequada (basicamente uma faca de dois gumes).

Além disso, foi demonstrado que a ferramenta também pode incluir informações pessoais publicado pelos desenvolvedores e em um caso, replicou o código amplamente citado do jogo de PC de 1999 Quake III Arena, incluindo comentários do desenvolvedor John Carmack.

Cole Garry, um porta-voz do Github, se recusou a comentar e se contentou em consultar as perguntas frequentes existentes da empresa no site do Copilot, que reconhece que a ferramenta pode produzir trechos de texto de seus dados de treinamento.

Isso acontece cerca de 0.1% das vezes, de acordo com o GitHub, geralmente quando os usuários não fornecem contexto suficiente em torno de suas solicitações ou quando o problema tem uma solução trivial.

“Estamos em processo de implementação de um sistema de rastreamento de origem para detectar as raras instâncias de repetição de código em todos os dados de treinamento, para ajudá-lo a tomar boas decisões em tempo real. Em relação às sugestões do GitHub Copilot ”, diz o FAQ da empresa.

Enquanto isso, o CEO do GitHub, Nat Friedman, argumentou que treinar sistemas de aprendizado de máquina em dados públicos é um uso legítimo, embora reconhecendo que "propriedade intelectual e inteligência artificial serão o assunto de uma discussão política interessante", na qual a empresa participará ativamente.

Em um de seus tweets, ele escreveu:

“O GitHub Copilot foi, como ele próprio admite, construído sobre montanhas de código GPL, então não tenho certeza de que isso não seja uma forma de lavagem de dinheiro. Código-fonte aberto em obras comerciais. A frase "normalmente não reproduz as peças exatas" não é muito satisfatória ".

“Copyright não cobre apenas copiar e colar; cobre trabalhos derivados. O GitHub Copilot foi construído em código-fonte aberto e a soma total de tudo o que você sabe foi tirada desse código. Não há interpretação possível do termo 'derivado' que não inclua isso ', escreveu ele. “A geração mais antiga de IA foi treinada em textos públicos e fotos, sobre os quais é mais difícil reivindicar direitos autorais, mas este é retirado de grandes obras com licenças muito explícitas testadas pelos tribunais, então aguardo o inevitável / coletivo / ações massivas sobre isso ”.

Por fim, temos que aguardar as ações que o GitHub realizará para modificar a forma como o Copilot é treinado, pois no final, mais cedo ou mais tarde a forma como ele gera o código pode colocar mais de um desenvolvedor em apuros.


Deixe um comentário

Seu endereço de email não será publicado. Campos obrigatórios são marcados com *

*

*

  1. Responsável pelos dados: Miguel Ángel Gatón
  2. Finalidade dos dados: Controle de SPAM, gerenciamento de comentários.
  3. Legitimação: Seu consentimento
  4. Comunicação de dados: Os dados não serão comunicados a terceiros, exceto por obrigação legal.
  5. Armazenamento de dados: banco de dados hospedado pela Occentus Networks (UE)
  6. Direitos: A qualquer momento você pode limitar, recuperar e excluir suas informações.