Debian 討論其生態系中 AI 模型的未來

Debian-Gnu-Linux

Debian 有 宣布已 開啟了一項新的一般決議 (GR)以便他們的 開發商決定 AI(人工智慧)模型是否可以成為主儲存庫的一部分,以及在什麼條件下。

雖然投票階段尚未開始,但專案開發人員之間的討論期已經開始,誰將決定並Debian 在機器學習模型方面將採取的方向。大約一千名擁有投票權的開發人員有資格參與此次投票,他們負責軟體包的維護和專案的整體基礎設施。

爭論的核心是一個問題如果開放許可下分發的人工智慧模式不包含從頭開始訓練所需的資料和工具,它們能真正被視為免費嗎? 提案 在討論中堅持認為沒有,並且聲稱這些模型與 Debian 的自由軟體指南不相容 (DFSG)。如果獲得批准,此類模型將被排除在主儲存庫之外,而不會考慮(至少目前)將其納入非自由等部分。

反對意見指出了自由軟體的核心問題:修改、研究和改進程序的能力。對於人工智慧模型,只有當您能夠存取訓練資料和建立模型所使用的工具時,這才有可能。決議的支持者認為,如果沒有這些要素,修改模型實際上是不可能的。如果無法重現訓練過程,那麼即使是簡單的操作(例如更改標記器以添加對新語言的支援)也會成為一項艱鉅的任務。

法律和安全風險

人們不僅擔心分銷的哲學和道德問題,還擔心 出現嚴重的安全隱憂。 由於來源資料的缺失而產生的不透明性,使得無法驗證訓練中使用的資料的合法性。這 為潛在的許可證違規行為打開了大門, 例如,如果使用 GPL 資料而沒有進行適當的歸屬,就無法確定該模型是否針對機密資訊或受版權保護的資訊進行訓練。

另外, 如果無法存取來源資料,偵測錯誤或漏洞幾乎就成了原作者的獨家任務。。這增加了用戶對特定供應商的依賴,並使補丁或修復的實施變得複雜。更糟的是,它使得正確審核模型變得不可能,因此其行為中的後門或隱藏的偏見可能會被忽略。

開源社群中的爭論

人工智慧系統「開放」的真正含義這個問題正在整個自由軟體生態系統中引起熱烈討論,而不僅僅是在 Debian 中。 2023 年 XNUMX 月,開放原始碼促進會 (OSI) 發布了暫定定義 什麼應該被視為開源人工智慧。這個定義 規定人工智慧系統必須允許不受限制地使用、研究、修改和重新分發,並包括模型的完整文件、所使用的資料和訓練方法等要求。

然而, OSI 定義並未要求發布訓練數據, 但只有關於它們的“詳細信息”。這項遺漏受到了證監會等組織的嚴厲批評,他們認為,如果沒有原始數據,就無法充分行使修改和研究的基本自由。

OSI 承認這一點,但證明其決定是正確的 根據實際情況:用於訓練現代模型的許多數據都受到商業許可的約束,包含敏感信息,或者根本無法合法地重新分發。他們認為,加入要求發布的條款將導致所有現有模型與任何開放性定義不相容,從而使免費人工智慧的概念陷入無法實現的困境。

Debian 將會走什麼樣的路?

分辨率 Debian 中正在討論這個問題 如果通過,可能會產生深遠的影響,因為它標誌著一個堅定的立場:沒有訓練資料或工具來重現模型,就沒有真正的自由,因此,在 Debian 核心中沒有一席之地。這種對自由的嚴格解釋 可能迫使許多廣泛使用的模型被排除在主流發行之外, 包括一些學術或商業發展,雖然是在開放許可下發布的,但並不符合透明度和可重複性的標準。

Debian 開發人員所做的決定可能會在自由軟體中樹立先例,並定義人工智慧系統必須達到的標準等級才能被視為真正自由。

最後,如果你是 有興趣了解更多,您可以在中查看詳細信息 以下鏈接。