GitHub 的 AI 助手 Copilot 受到开源社区的强烈批评

前几天 我们在博客上分享 Copilot 的消息,这是一个用于编写 GitHub 代码的人工智能向导,我基本上将其作为程序员的帮助工具。

即使副驾驶 不同于代码完成系统 传统用于形成相当复杂的代码块的能力,直到考虑到当前上下文的即用型功能。 作为 Copilot 是通过几百万行代码学习的 AI 功能 它根据功能的定义等识别您正在计划的内容。

副驾驶代表了一个伟大的节省时间 由于它学习了数百万行代码,这已经开始引起人们对该工具可能会规避开源许可要求并违反版权法的担忧。

Armin Ronacher,一位杰出的开发者 在开源社区,他是开发者之一 对 Copilot 的构建方式感到沮丧, 正如他提到的,他试验了这个工具,并在 Twitter 上发布了一张截图,其中 提到他觉得副驾驶很奇怪, 一种商业化的人工智能工具, 可以产生受版权保护的代码。

有鉴于此,一些开发者开始警觉 通过使用公共代码来训练工具的人工智能。 一个担忧是,如果 Copilot 复制足够大的现有代码块,它可能会侵犯版权或在没有适当许可的情况下清洗开源代码用于商业用途(基本上是一把双刃剑)。

另外, 表明该工具还可以包含个人信息 由开发人员发布,在一种情况下, 复制了 1999 年 PC 游戏 Quake III Arena 中广泛引用的代码, 包括来自开发者 John Carmack 的评论。

Github 发言人 Cole Garry 拒绝发表评论,并乐意参考 Copilot 网站上公司现有的常见问题解答,该网站承认该工具可以从您的训练数据中生成文本片段。

根据 GitHub 的说法,这种情况大约发生在 0.1% 的时间,通常是当用户没有提供足够的请求上下文或问题有一个微不足道的解决方案时。

“我们正在实施一个源头跟踪系统,以检测所有训练数据中罕见的代码重复实例,以帮助您实时做出正确的决策。 关于 GitHub Copilot 的建议,”该公司的常见问题解答说.

与此同时,GitHub 首席执行官 Nat Friedman 认为,在公共数据上训练机器学习系统是一种合法用途,同时承认“知识产权和人工智能将成为有趣的政治讨论的主题。”该公司将积极参与其中。

在他的一条推文中,他写道:

“GitHub Copilot 自己承认,它建立在大量 GPL 代码之上,所以我不确定这是否不是一种洗钱形式。 商业作品中的开源代码。 短语“通常不会复制精确的片段”不是很令人满意”。

“版权不仅仅包括复制和粘贴; 涵盖衍生作品。 GitHub Copilot 建立在开源代码之上,您所知道的所有内容的总和都来自该代码。 他写道,“衍生”一词没有可能的解释不包括这一点。 “老一代的 AI 接受过公开文本和照片的训练,在这些方面更难主张版权,但这个取自伟大的作品,并通过了法院测试的非常明确的许可,所以我期待不可避免的 / 集体/ 对此采取大规模行动”。

最后,我们必须等待 GitHub 将采取行动来修改 Copilot 的训练方式,因为最终,它生成代码的方式迟早会给多个开发人员带来麻烦。


发表您的评论

您的电子邮件地址将不会被发表。 必填字段标有 *

*

*

  1. 负责数据:MiguelÁngelGatón
  2. 数据用途:控制垃圾邮件,注释管理。
  3. 合法性:您的同意
  4. 数据通讯:除非有法律义务,否则不会将数据传达给第三方。
  5. 数据存储:Occentus Networks(EU)托管的数据库
  6. 权利:您可以随时限制,恢复和删除您的信息。