PolyCoder,一种开源代码生成人工智能,其性能可能优于 Codex 

作者:@Laurent - Fotolia.com

目前, 我们已经开始看到增加 他们开始提供的不同解决方案 使用人工智能生成代码 (AI),自然语言处理 (NLP) 领域为各种编程语言的一系列代码生成 AI 铺平了道路。

其中 我们可以突出显示例如 GitHub Copilot、AlphaCode 和 Codex 并且我们现在可以在其中添加一个新的解决方案 卡内基梅隆大学的研究人员最近推出了“PolyCoder”, 基于 OpenAI 的 GPT-2 语言模型的代码生成器,该模型在 249 GB 代码数据库上以 12 种编程语言进行了训练。

关于 PolyCoder

PolyCoder 的作者声称它是 能够比任何已知模型(包括 Codex)更准确地编写 C。

代码生成AI, 可以用不同的编程语言编写源代码 它立即承诺降低软件开发成本,同时允许开发人员专注于较少重复的、创造性的任务。

PolyCoder 由来自各种 GitHub 存储库的数据提供支持,涵盖 12 种流行的编程语言: C、C#、C++、Go、Java、JavaScript、PHP、Python、Ruby、Rust、Scala 和 TypeScript。

未经过滤的数据集总共有 631 GB 的数据和 38,9 万个文件。 团队说 由于预算限制,选择使用 GPT-2 训练 PolyCoder。 PolyCoder 是开源的,研究人员希望它可以使 AI 代码生成领域的研究民主化,该领域迄今为止一直由资金雄厚的公司主导。

研究人员认为 PolyCoder 在用 C 语言生成代码方面,它比其他模型更有效。 然而,Codex 在其他语言中总是胜过它。 “PolyCoder 的性能大大优于 Codex 和 C 语言中的所有其他模型。

“当 Copilot 去年夏天在 GitHub 上出现时,很明显这些非常大的语言代码模型在帮助开发人员和提高他们的生产力方面非常有用。 但甚至没有接近这种规模的模型是公开可用的,”研究人员通过电子邮件告诉 VentureBeat。 “所以 [PolyCoder] 从 Vincent 开始,试图找出可以在我们的实验室服务器上训练的最大模型是什么,最终有 2700 亿个参数……而且该模型领先于我们拥有的其他面向代码的模型.当时是公开的。”

仅比较开源模型时, PolyCoder 在 C、JavaScript、Rust、Scala 和 TypeScript 中的性能优于类似大小的 GPT-Neo 2.7B 模型。” 他们指出“在其他 11 种语言中,所有其他开源模型,包括我们自己的,都比 Codex 差得多(更大的困惑),”CMU 研究人员补充说。

有了这个,PolyCoder 被定位为一个非常有趣的解决方案,因为虽然 Elon Musk 的 OpenAI 和 Alphabet 的 DeepMind 等研究实验室已经开发出强大的代码生成 AI,但许多最成功的系统都没有开源。 低收入公司无法使用它,这种情况限制了他们在该领域的研究。

例如,为 GitHub 的 Copilot 功能提供支持的 OpenAI Codex 的训练数据尚未公开,这阻碍了研究人员改进 AI 模型或研究其某些方面,例如互操作性。

“大型科技公司没有公开发布他们的模型,这确实阻碍了科学研究和这种大型语言代码模型的民主化,”研究人员说。 “在某种程度上,我们希望我们的开源努力能够说服其他人也这样做。 但总体而言,社区应该能够自行训练这些模型。 我们的模型突破了你可以在单个服务器上训练的极限——任何更大的东西都需要一个服务器池,这大大增加了成本。”

最后 如果您有兴趣了解更多有关它的信息,您可以在中查看详细信息 以下链接。


发表您的评论

您的电子邮件地址将不会被发表。 必填字段标有 *

*

*

  1. 负责数据:MiguelÁngelGatón
  2. 数据用途:控制垃圾邮件,注释管理。
  3. 合法性:您的同意
  4. 数据通讯:除非有法律义务,否则不会将数据传达给第三方。
  5. 数据存储:Occentus Networks(EU)托管的数据库
  6. 权利:您可以随时限制,恢复和删除您的信息。