Debian diskutiert die Zukunft von KI-Modellen in seinem Ökosystem

debian-gnu-linux

Debian hat gab bekannt, dass es eröffnete eine neue allgemeine Resolution (GR), so dass ihre Entwickler entscheiden ob und unter welchen Bedingungen KI-Modelle (künstliche Intelligenz) Teil des Hauptrepositorys sein können.

Obwohl die Abstimmungsphase noch nicht begonnen hat, läuft bereits die Diskussionsphase zwischen den Projektentwicklern, die entscheiden undDie Richtung, die Debian in Bezug auf Modelle für maschinelles Lernen einschlagen wird. An dieser Abstimmung können rund tausend stimmberechtigte Entwickler teilnehmen, die für die Paketwartung und die gesamte Infrastruktur des Projekts verantwortlich sind.

Im Mittelpunkt der Debatte steht eine FrageKönnen KI-Modelle, die unter offenen Lizenzen verbreitet werden, wirklich als frei angesehen werden, wenn sie nicht die Daten und Tools enthalten, die für ihr Training von Grund auf erforderlich sind? der Vorschlag in der Diskussion behauptet, dass nein, und pbehauptet, dass diese Modelle mit den Richtlinien für freie Software von Debian nicht kompatibel sind (DFSG). Im Falle einer Genehmigung würden solche Modelle aus dem Hauptrepository ausgeschlossen, ohne (zumindest vorerst) ihre Aufnahme in Abschnitte wie „non-free“ in Betracht zu ziehen.

Die Einwände zielen auf einen zentralen Punkt der freien Software ab: die Fähigkeit, ein Programm zu ändern, zu untersuchen und zu verbessern. Bei KI-Modellen wäre dies nur möglich, wenn Sie Zugriff auf die Trainingsdaten und die zu ihrer Erstellung verwendeten Tools hätten. Ohne diese Elemente, so argumentieren die Befürworter der Resolution, sei eine Änderung eines Modells praktisch unmöglich. Selbst einfache Aktionen, wie das Ändern eines Tokenizers, um Unterstützung für neue Sprachen hinzuzufügen, werden zu einer Herkulesaufgabe, wenn der Trainingsprozess nicht reproduziert werden kann.

Rechtliche und Sicherheitsrisiken

Die Bedenken betreffen nicht nur die Philosophie und Ethik der Verteilung, sondern auch Es ergeben sich schwerwiegende Sicherheitsrisiken. Die durch das Fehlen von Quelldaten entstehende Intransparenz macht es unmöglich, die Rechtmäßigkeit der im Training verwendeten Daten zu überprüfen. Das öffnet die Tür für potenzielle Lizenzverletzungen, Dies ist beispielsweise der Fall, wenn GPL-Daten ohne ordnungsgemäße Quellenangabe verwendet werden und es dadurch unmöglich wird, festzustellen, ob das Modell mit vertraulichen oder urheberrechtlich geschützten Informationen trainiert wurde.

Zusätzlich Ohne Zugriff auf das Quellmaterial ist das Aufspüren von Fehlern oder Schwachstellen fast ausschließlich eine Aufgabe des ursprünglichen Autors.. Dies erhöht die Abhängigkeit des Benutzers von einem bestimmten Anbieter und erschwert die Implementierung von Patches oder Fixes. Schlimmer noch: Es macht eine ordnungsgemäße Prüfung des Modells unmöglich, sodass Hintertüren oder versteckte Verzerrungen in seinem Verhalten unbemerkt bleiben könnten.

Die Debatte in der Open-Source-Community

Die Frage, was es eigentlich bedeutet, dass ein KI-System „offen“ ist, wird im gesamten Ökosystem der freien Software intensiv diskutiert, nicht nur bei Debian. Im Oktober 2023 veröffentlichte die Open Source Initiative (OSI) eine vorläufige Definition dessen, was als Open-Source-KI betrachtet werden sollte. Diese Definition legt fest, dass ein KI-System seine Nutzung, Untersuchung, Änderung und Weiterverbreitung ohne Einschränkungen ermöglichen mussund umfasst Anforderungen wie eine vollständige Dokumentation des Modells, der verwendeten Daten und der Trainingsmethodik.

Allerdings Die OSI-Definition erfordert keine Veröffentlichung von Trainingsdaten als solchen, sondern nur „detaillierte Informationen“ über sie. Dieses Versäumnis wurde von Organisationen wie der SFC scharf kritisiert. Sie argumentiert, dass ohne die Originaldaten die grundlegenden Freiheiten der Veränderung und Untersuchung nicht in vollem Umfang ausgeübt werden könnten.

Das OSI erkennt diesen Punkt an, begründet seine Entscheidung aber Aus der Praxis: Viele der zum Trainieren moderner Modelle verwendeten Daten unterliegen kommerziellen Lizenzen, enthalten vertrauliche Informationen oder dürfen einfach nicht legal weiterverteilt werden. Sie argumentieren, dass die Aufnahme einer Veröffentlichungsklausel alle bestehenden Modelle mit jeglicher Definition von Offenheit unvereinbar machen würde und das Konzept der freien KI in einer unerreichbaren Schwebe bliebe.

Welchen Weg wird Debian einschlagen?

Die Auflösung was jetzt in Debian diskutiert wird könnte weitreichende Auswirkungen haben, wenn es verabschiedet wird, da dies eine klare Haltung signalisieren würde: Ohne Trainingsdaten oder Tools zum Reproduzieren des Modells gibt es keine wirkliche Freiheit und daher keinen Platz im Debian-Kernel. Diese strenge Auslegung der Freiheit könnte den Ausschluss zahlreicher weit verbreiteter Modelle aus dem Mainstream-Vertrieb erzwingen, einschließlich einiger akademischer oder geschäftlicher Entwicklungen, die zwar unter offenen Lizenzen veröffentlicht werden, diesen Standard an Transparenz und Reproduzierbarkeit nicht erfüllen.

Die Entscheidung der Debian-Entwickler könnte einen Präzedenzfall für freie Software schaffen und die Standards definieren, die künstliche Intelligenzsysteme erfüllen müssen, um als wirklich frei zu gelten.

Schließlich, wenn Sie sind daran interessiert, mehr darüber zu erfahrenkönnen Sie die Details in der überprüfen folgenden Link