Alguns dias atrás O SFC oficializou sua nova definição de “Inteligência Artificial de Código Aberto” para o qual Bradley M. Kuhn, líder da Software Freedom Conservancy (SFC), manifestou preocupação sobre a referida definição.
Kuhn menciona que seu intenção de anular o referido termo é porque Os atuais critérios de “IA aberta” podem ter consequências graves diluindo o valor do termo “código aberto” e dividindo a comunidade. Um dos pontos que tem gerado conflito é a exclusão da exigência de publicação dos dados utilizados para treinar modelos de IA.
E, de acordo com o OSI, a inclusão deste requisito tornaria impossível que a maioria dos modelos de linguagem atuais fossem considerados abertos, uma vez que os seus dados de formação são na sua maioria privados.
Kuhn considera que esta definição foi aprovada às pressas, sem o mesmo processo exaustivo e demorado que deu definição ao tradicional “código aberto”. Na sua opinião, o OSI deveria ter qualificado esta nova orientação como uma “recomendação” e não como uma “definição”, dado que os sistemas de IA ainda estão nas suas fases iniciais de desenvolvimento.
O resumo aqui, na minha opinião, é simples: a OSAID não exige a reprodutibilidade pública do processo científico de construção destes sistemas, porque não estabelece requisitos suficientes sobre o licenciamento e divulgação pública de conjuntos de treinamento para os chamados "código aberto" sistemas. A OSI recusou-se a adicionar este requisito devido a uma falha fundamental no seu processo; Eles decidiram que “não fazia sentido publicar uma definição que nenhum sistema de IA existente pudesse atender atualmente”.
Entretanto o OSI argumenta que a definição ajudará a evitar o uso ambíguo do termo "aberto" no contexto da IA, já que muitos fabricantes rotulam seus modelos como abertos apenas porque permitem acesso a determinados componentes, como coeficientes de ponderação, mas restringem seu uso ou não revelam todos os detalhes de implementação.
La A OSI estabeleceu que um sistema aberto de IA só precisa oferecer informações informações detalhadas sobre os dados usados em seu treinamento, sem exigir que os dados sejam públicos. Kuhn, no entanto, acredita que esta limitação impede que os modelos de IA atendam à reprodutibilidade necessária em software de código aberto, onde o acesso total aos dados e ao código é essencial.
Em sua crítica, Kuhn menciona que, ignorando o acesso aos dados de treinamento, O OSI reduziu a definição a uma abordagem puramente tecnológica, sem reconhecer a IA como um sistema completo e reprodutível, o que, segundo ele, entra em conflito com os princípios do código aberto.
Eu realmente não tenho certeza (ainda) se a única maneira de respeitar os direitos do usuário em um sistema de IA generativa apoiado por LLM é usar apenas conjuntos de treinamento que estão disponíveis publicamente e licenciados sob licenças de software livre. Acho que essa é a forma ideal e preferida de modificar esses sistemas.
La definição de “sistema aberto de IA” aprovado pelo OSI gerou polêmica uma vez que garante apenas duas das quatro liberdades fundamental de software de código aberto: a capacidade de usar e distribuir. Contudo, as liberdades para estudar e modificar o modelo não estão totalmente asseguradas, principalmente devido à falta de acesso aos dados de formação. Esta omissão também complica a detecção de possíveis backdoors inseridos em modelos de IA.
Do ponto de vista da OSI, Entende-se a restrição à publicação de dados, uma vez que muitas vezes é devido a fatores fora do controle dos desenvolvedores, como a proteção de dados confidenciais, direitos autorais ou acordos de licença com terceiros. No entanto, os críticos, incluindo Bradley Kuhn e membros da comunidade Debian, argumentam que estes desafios não justificam uma definição que enfraqueça os princípios do código aberto. Segundo eles, a ausência de acesso aos dados de formação diminui o valor da IA aberta e ameaça diluir o significado e a integridade do movimento de código aberto.
Kuhn menciona que planeja participar das próximas eleições de liderança do OSI tentar revogar esta definição e promover a sua classificação apenas como uma recomendação e não como uma norma. Além disso, outras organizações, como a Open Source Foundation, estão a desenvolver a sua própria definição de IA gratuita, que incluirá um requisito de disponibilidade de dados, embora reconheçam exceções éticas para certos tipos de dados, como dados médicos ou pessoais.
Finalmente se você estiver interessado em saber mais sobre isso, você pode verificar os detalhes no link a seguir.