Debian discute o futuro dos modelos de IA em seu ecossistema

debian-gnu-linux

O Debian tem anunciou que tem abriu uma nova resolução geral (GR) para que seus os desenvolvedores decidem se modelos de IA (inteligência artificial) podem fazer parte do repositório principal e em que condições.

Embora a fase de votação ainda não tenha começado, já está em curso o período de discussão entre os promotores do projecto, que irão decidir eA direção que o Debian tomará em relação aos modelos de aprendizado de máquina. Cerca de mil desenvolvedores com direito a voto, responsáveis ​​pela manutenção dos pacotes e pela infraestrutura geral do projeto, estão qualificados para participar desta votação.

No centro do debate está uma questãoOs modelos de IA distribuídos sob licenças abertas podem realmente ser considerados gratuitos se não incluírem os dados e as ferramentas necessárias para treiná-los do zero? A proposta na discussão sustenta que não, e pafirma que esses modelos são incompatíveis com as diretrizes de software livre do Debian (DFSG). Se aprovados, tais modelos seriam excluídos do repositório principal, sem considerar (pelo menos por enquanto) sua inclusão em seções como não livre.

As objeções apontam para um ponto central do software livre: a capacidade de modificar, estudar e melhorar um programa. No caso de modelos de IA, isso só seria possível se você tivesse acesso aos dados de treinamento e às ferramentas usadas em sua construção. Sem esses elementos, argumentam os proponentes da resolução, modificar um modelo é praticamente impossível. Até mesmo ações simples, como alterar um tokenizador para adicionar suporte a novos idiomas, se tornam uma tarefa hercúlea se o processo de treinamento não puder ser reproduzido.

Riscos legais e de segurança

As preocupações não se prendem apenas com a filosofia e a ética da distribuição, mas também surgem sérias implicações de segurança. A opacidade gerada pela ausência de dados de origem impossibilita a verificação da legalidade dos dados utilizados no treinamento. Esse abre a porta para potenciais violações de licença, Por exemplo, se dados GPL foram usados ​​sem a devida atribuição, tornando impossível determinar se o modelo foi treinado com informações confidenciais ou protegidas por direitos autorais.

Além disso, Sem acesso ao material de origem, detectar erros ou vulnerabilidades se torna uma tarefa quase exclusiva do autor original.. Isso aumenta a dependência do usuário em relação a um fornecedor específico e complica a implementação de patches ou correções. Pior ainda, torna impossível auditar adequadamente o modelo, de modo que backdoors ou vieses ocultos em seu comportamento podem passar despercebidos.

O debate na comunidade de código aberto

A questão sobre o que realmente significa para um sistema de IA ser "aberto" está sendo intensamente discutida em todo o ecossistema de software livre, não apenas no Debian. Em outubro de 2023, a Open Source Initiative (OSI) publicou uma definição provisória do que deve ser considerado IA de código aberto. Esta definição estabelece que um sistema de IA deve permitir a sua utilização, estudo, modificação e redistribuição sem restrições, e inclui requisitos como documentação completa do modelo, os dados usados ​​e a metodologia de treinamento.

Não obstante, A definição OSI não exige a publicação de dados de treinamento como tal, mas apenas “informações detalhadas” sobre eles. Essa omissão foi duramente criticada por organizações como a SFC, que argumenta que, sem os dados originais, as liberdades fundamentais de modificação e estudo não podem ser plenamente exercidas.

O OSI reconhece este ponto, mas justifica a sua decisão Com base em realidades práticas: muitos dos dados usados ​​no treinamento de modelos modernos estão sujeitos a licenças comerciais, contêm informações confidenciais ou simplesmente não podem ser redistribuídos legalmente. Eles argumentam que incluir uma cláusula exigindo publicação tornaria todos os modelos existentes incompatíveis com qualquer definição de abertura, deixando o conceito de IA livre em um limbo inatingível.

Que caminho o Debian tomará?

Resolução que agora está sendo discutido no Debian poderia ter um efeito de longo alcance se fosse aprovada, pois marcaria uma posição firme: sem dados de treinamento ou ferramentas para reproduzir o modelo, não há liberdade real e, portanto, não há lugar no kernel do Debian. Esta interpretação estrita da liberdade poderia forçar a exclusão de vários modelos amplamente utilizados da distribuição convencional, incluindo alguns desenvolvimentos acadêmicos ou comerciais que, embora publicados sob licenças abertas, não atendem a esse padrão de transparência e reprodutibilidade.

A decisão tomada pelos desenvolvedores do Debian pode abrir um precedente no software livre e definir os padrões que os sistemas de inteligência artificial devem atender para serem considerados verdadeiramente livres.

Finalmente, se você estiver interessado em saber mais sobre isso, você pode verificar os detalhes no link a seguir