GitHub 的 AI 助手 Copilot 受到開源社區的強烈批評

幾天前 我們在博客上分享 Copilot 的消息,這是一個用於編寫 GitHub 代碼的人工智能嚮導,我基本上將其作為程序員的幫助工具。

即使副駕駛 不同於代碼完成系統 傳統用於形成相當複雜的代碼塊的能力,直到考慮到當前上下文的即用型功能。 作為 Copilot 是通過幾百萬行代碼學習的 AI 功能 它根據功能的定義等識別您正在計劃的內容。

Copilot 代表了一個很好的節省時間 由於它學習了數百萬行代碼,這已經開始引起人們對該工具可能會規避開源許可要求並違反版權法的擔憂。

Armin Ronacher,一位傑出的開發者 在開源社區,他是開發者之一 對 Copilot 的構建方式感到沮喪, 正如他提到的,他試驗了這個工具,並在 Twitter 上發布了一張截圖,其中 提到他覺得副駕駛很奇怪, 一種商業化的人工智能工具, 可以產生受版權保護的代碼。

有鑑於此,一些開發者開始警覺 用於使用公共代碼來訓練工具的人工智能。 一個擔憂是,如果 Copilot 複製足夠大的現有代碼塊,它可能會侵犯版權或在沒有適當許可的情況下清洗開源代碼用於商業用途(基本上是一把雙刃劍)。

另外, 表明該工具還可以包含個人信息 由開發人員發布,在一種情況下, 複製了 1999 年 PC 遊戲 Quake III Arena 中廣泛引用的代碼, 包括來自開發者 John Carmack 的評論。

Github 發言人 Cole Garry 拒絕發表評論,並樂意參考 Copilot 網站上公司現有的常見問題解答,該網站承認該工具可以從您的訓練數據中生成文本片段。

根據 GitHub 的說法,這種情況大約發生在 0.1% 的時間,通常是當用戶沒有提供足夠的請求上下文或問題有一個微不足道的解決方案時。

“我們正在實施一個源頭跟踪系統,以檢測所有訓練數據中罕見的代碼重複實例,以幫助您實時做出正確的決策。 關於 GitHub Copilot 的建議,”該公司的常見問題解答說.

與此同時,GitHub 首席執行官 Nat Friedman 認為,在公共數據上訓練機器學習系統是一種合法用途,同時承認“知識產權和人工智能將成為有趣的政治討論的主題。”該公司將積極參與其中。

在他的一條推文中,他寫道:

“GitHub Copilot 自己承認,它建立在大量 GPL 代碼之上,所以我不確定這不是一種洗錢形式。 商業作品中的開源代碼。 短語“通常不會復制精確的片段”不是很令人滿意”。

“版權不僅僅包括複製和粘貼; 涵蓋衍生作品。 GitHub Copilot 建立在開源代碼之上,您所知道的所有內容的總和都來自該代碼。 他寫道,“衍生”一詞沒有可能的解釋不包括這一點。 “老一輩的 AI 接受過公開文本和照片的訓練,在這些方面更難主張版權,但這個取自偉大的作品,並通過法院測試獲得非常明確的許可,所以我期待不可避免/ 對此採取大規模行動”。

最後,我們必須等待 GitHub 採取行動來修改 Copilot 的訓練方式,因為最終,它生成代碼的方式遲早會給多個開發人員帶來麻煩。


發表您的評論

您的電子郵件地址將不會被發表。 必填字段標有 *

*

*

  1. 負責數據:MiguelÁngelGatón
  2. 數據用途:控制垃圾郵件,註釋管理。
  3. 合法性:您的同意
  4. 數據通訊:除非有法律義務,否則不會將數據傳達給第三方。
  5. 數據存儲:Occentus Networks(EU)託管的數據庫
  6. 權利:您可以隨時限制,恢復和刪除您的信息。