Hai uns días compartimos aquí no blog as novas de Copilot, que é un asistente de intelixencia artificial para escribir código GitHub e que basicamente presento como unha ferramenta de axuda para os programadores.
Aínda que Copilot difiere dos sistemas de completación de código tradicional debido á capacidade de formar bloques de código bastante complexos, ata funcións listas para usar sintetizadas tendo en conta o contexto actual. Como Copilot é unha función de IA que aprendeu a través de varios millóns de liñas de código e recoñece o que está a planear en función da definición dunha función, etc.
Caes Copilot representa un gran aforro de tempo debido á súa aprendizaxe de millóns de liñas de código, que comezou a xerar temor de que a ferramenta poida eludir os requisitos de licenza de código aberto e violar as leis de dereitos de autor.
Armin Ronacher, un destacado desarrollador na comunidade de código aberto, é un dos desenvolvedores que frustrouse coa forma de construír Copilot, como menciona que experimentou coa ferramenta e publicou unha captura de pantalla en Twitter na que menciona que lle pareceu estraño que Copilot, unha ferramenta de intelixencia artificial que se comercializa, podería producir código con dereitos de autor.
Ante isto, algúns desenvolvedores comezaron a alarmarse para o uso do código público para adestrar a intelixencia artificial da ferramenta. Unha das preocupacións é que se Copilot reproduce cantidades suficientes de código existente, podería infrinxir os dereitos de autor ou lavar código aberto para uso comercial sen a licenza adecuada (basicamente unha arma de dobre fío).
Non quero dicir nada, pero esa non é a licenza correcta, señor Copilot. pic.twitter.com/hs8JRVQ7xJ
- Armin Ronacher (@mitsuhiko) Xullo 2, 2021
Ademais, demostrouse que a ferramenta tamén pode incluír información persoal publicado polos desenvolvedores e nun caso, replicou o código amplamente citado do xogo de PC Quake III Arena de 1999, incluíndo comentarios do desarrollador John Carmack.
Cole Garry, portavoz de Github, rexeitou facer comentarios e contentouse con referirse ás preguntas máis frecuentes da compañía no sitio web Copilot, que recoñece que a ferramenta pode producir fragmentos de texto a partir dos seus datos de adestramento.
Isto ocorre aproximadamente o 0.1% das veces, segundo GitHub, normalmente cando os usuarios non proporcionan o contexto suficiente ás súas peticións ou cando o problema ten unha solución trivial.
"Estamos no proceso de implementar un sistema de seguimento da orixe para detectar os casos raros de repetición de código en todos os datos do adestramento, para axudarche a tomar boas decisións en tempo real. En canto ás suxestións de GitHub Copilot ", di as preguntas frecuentes da compañía.
Mentres tanto, o director xeral de GitHub, Nat Friedman, argumentou que a formación de sistemas de aprendizaxe automática sobre datos públicos é un uso lexítimo, á vez que recoñeceu que "a propiedade intelectual e a intelixencia artificial serán obxecto dunha interesante discusión política" na que a compañía participará activamente.
Nun dos seus tweets, escribiu:
“GitHub Copilot foi, por propia admisión, construído sobre montañas de código GPL, polo que non estou seguro de como isto non é unha forma de branqueo de cartos. Código de código aberto en obras comerciais. A frase "non adoita reproducir as pezas exactas" non é moi satisfactoria ".
“O copyright non só abrangue copiar e pegar; abrangue obras derivadas. GitHub Copilot foi construído sobre código aberto e a suma total de todo o que sabes está tomada dese código. Non hai ningunha interpretación posible do termo "derivado" que non inclúa isto ", escribiu. "A xeración máis antiga de IA adestrouse en textos e fotos públicas, sobre os cales é máis difícil reclamar dereitos de autor, pero este está extraído de grandes obras con licenzas moi explícitas probadas polos tribunais, polo que espero o inevitable / colectivo / accións masivas sobre isto ”.
Finalmente, temos que esperar ás accións que levará a cabo GitHub para modificar a forma en que se adestra Copilot, xa que ao final, tarde ou cedo a forma en que xera o código pode poñer en problemas a máis dun desenvolvedor.
Sexa o primeiro en opinar sobre