Debian debat el futur dels models d'IA al seu ecosistema

debian-gnu-linux

Debian ha donat a conèixer que ha obert una nova resolució general (GR) perquè els seus desenvolupadors decideixin si els models de IA (intel·ligència artificial) poden formar part del repositori principal, i en quines condicions.

Tot i que la fase de votació encara no ha començat, ja està en marxa el període de discussió entre els desenvolupadors del projecte, que decidiran el rumb que prendrà Debian en relació amb els models d'aprenentatge automàtic. En aquesta votació estan habilitats per participar-hi al voltant de mil desenvolupadors amb drets de vot, responsables del manteniment de paquets i de la infraestructura general del projecte.

Al centre del debat hi ha una qüestió: es poden considerar realment lliures els models d'IA distribuïts sota llicències obertes si no s'hi inclouen les dades i eines necessàries per entrenar-los des de zero? la proposta en discussió sosté que no, ipassegura que aquests models són incompatibles amb les directrius de programari lliure de Debian (DFSG). Si s'aprova, aquests models quedarien exclosos del repositori principal, sense que se'n prevegi (almenys per ara) la seva inclusió en seccions com a non-free.

Les objeccions apunten a un punt central del programari lliure: la capacitat de modificar, estudiar i millorar un programa. En el cas dels models d'IA, això només seria possible si es té accés a les dades d'entrenament ia les eines emprades en la construcció. Sense aquests elements, argumenten els proposants de la resolució, modificar un model és a la pràctica gairebé impossible. Fins i tot accions senzilles, com ara canviar un tokenitzador per afegir suport a nous idiomes, es tornen una tasca hercúlia si no es pot reproduir el procés d'entrenament.

Riscos legals i de seguretat

Les preocupacions no són únicament sobre la filosofia i ètica de la distribució, ja que també es plantegen serioses implicacions de seguretat. L'opacitat que genera l'absència de dades font impedeix verificar la legalitat de les dades utilitzades a l'entrenament. Això obre la porta a possibles infraccions de llicències, per exemple, si es van utilitzar dades sota GPL sense l'atribució deguda i fa impossible determinar si el model va ser entrenat amb informació confidencial o protegida per drets d'autor.

A més, sense accés al material d'origen, detectar errors o vulnerabilitats, es torna una tasca gairebé exclusiva de l'autor original. Això incrementa la dependència de lusuari cap a un proveïdor concret i complica la implementació de pegats o correccions. Pitjor encara, impossibilita auditar adequadament el model, per la qual cosa podrien passar inadvertides portes del darrere o biaixos ocults en el seu comportament.

El debat a la comunitat del codi obert

La qüestió sobre què significa realment que un sistema d'IA sigui «obert» s'està discutint intensament a tot l'ecosistema del programari lliure i no només a Debian. L'octubre del 2023, l'Open Source Initiative (OSI) va publicar una definició temptativa del que caldria considerar una IA de codi obert. Aquesta definició estableix que un sistema d'IA n'ha de permetre l'ús, l'estudi, la modificació i la redistribució sense restriccions, i inclou requisits com la documentació completa del model, les dades emprades i la metodologia d'entrenament.

No obstant això, la definició de l'OSI no exigeix ​​la publicació de les dades d'entrenament com a tal, sinó només «informació detallada» sobre ells. Aquesta omissió ha estat durament criticada per organitzacions com la SFC, que argumenten que sense les dades originals, les llibertats fonamentals de modificar i estudiar no es poden exercir plenament.

Des de l'OSI es reconeix aquest punt, però en justifiquen la decisió en base a realitats pràctiques: moltes de les dades utilitzades en l'entrenament de models moderns estan subjectes a llicències comercials, contenen informació sensible o simplement no poden ser redistribuïdes legalment. Incloure una clàusula que exigeixi la seva publicació, sostenen, convertiria tots els models existents en incompatibles amb qualsevol definició d'obertura, deixant al concepte d'IA lliure en uns llimbs inabastables.

Quin camí prendrà Debian?

la resolució que ara es discuteix a Debian podria tenir un efecte de gran abast si fos aprovada, ja que marcaria una postura ferma: sense dades d'entrenament ni eines per reproduir el model, no hi ha llibertat real, i per tant, no hi ha cabuda al nucli de Debian. Aquesta interpretació estricta de la llibertat podria obligar a excloure de la distribució principal nombrosos models àmpliament utilitzats, incloent alguns desenvolupaments acadèmics o empresarials que, encara que publicats sota llicències obertes, no compleixen aquest estàndard de transparència i reproductibilitat.

La decisió que prenguin els desenvolupadors de Debian podria establir un precedent al programari lliure i definir el nivell d'exigència que han de complir els sistemes d'intel·ligència artificial per ser considerats veritablement lliures.

Finalment, si hi ets interessat a poder conèixer més sobre això, Pots consultar els detalls al següent enllaç.