PolyCoder,一種開源代碼生成人工智能,其性能可能優於 Codex 

作者:@Laurent - Fotolia.com

目前, 我們已經開始看到增加 他們開始提供的不同解決方案 使用人工智能生成代碼 (AI),自然語言處理 (NLP) 領域為各種編程語言的一系列代碼生成 AI 鋪平了道路。

其中 我們可以突出顯示例如 GitHub Copilot、AlphaCode 和 Codex 並且我們現在可以在其中添加一個新的解決方案 卡內基梅隆大學的研究人員最近推出了“PolyCoder”, 基於 OpenAI 的 GPT-2 語言模型的代碼生成器,該模型在 249 GB 代碼數據庫上以 12 種編程語言進行了訓練。

關於 PolyCoder

PolyCoder 的作者聲稱它是 能夠比任何已知模型(包括 Codex)更準確地編寫 C。

代碼生成AI, 可以用不同的編程語言編寫源代碼 它立即承諾降低軟件開發成本,同時允許開發人員專注於較少重複的、創造性的任務。

PolyCoder 由來自各種 GitHub 存儲庫的數據提供支持,涵蓋 12 種流行的編程語言: C、C#、C++、Go、Java、JavaScript、PHP、Python、Ruby、Rust、Scala 和 TypeScript。

未經過濾的數據集總共有 631 GB 的數據和 38,9 萬個文件。 團隊說 由於預算限制,選擇使用 GPT-2 訓練 PolyCoder。 PolyCoder 是開源的,研究人員希望它可以使 AI 代碼生成領域的研究民主化,該領域迄今為止一直由資金雄厚的公司主導。

研究人員認為 PolyCoder 在用 C 語言生成代碼方面,它比其他模型更有效。 然而,Codex 在其他語言中總是勝過它。 “PolyCoder 的性能大大優於 Codex 和 C 語言中的所有其他模型。

“去年夏天,當 Copilot 在 GitHub 上出現時,很明顯這些非常大的語言代碼模型在幫助開發人員和提高他們的生產力方面非常有用。 但甚至沒有接近這種規模的模型是公開可用的,”研究人員通過電子郵件告訴 VentureBeat。 “所以 [PolyCoder] 從 Vincent 開始,試圖找出可以在我們的實驗室服務器上訓練的最大模型是什麼,最終有 2700 億個參數……而且該模型領先於我們擁有的其他面向代碼的模型.當時是公開的。”

僅比較開源模型時, PolyCoder 在 C、JavaScript、Rust、Scala 和 TypeScript 中的性能優於類似大小的 GPT-Neo 2.7B 模型。” 他們指出“在其他 11 種語言中,所有其他開源模型,包括我們自己的,都比 Codex 差得多(更大的困惑),”CMU 研究人員補充說。

有了這個,PolyCoder 被定位為一個非常有趣的解決方案,因為雖然 Elon Musk 的 OpenAI 和 Alphabet 的 DeepMind 等研究實驗室已經開發出強大的代碼生成 AI,但許多最成功的系統都沒有開源。 低收入公司無法使用它,這種情況限制了他們在該領域的研究。

例如,為 GitHub 的 Copilot 功能提供支持的 OpenAI Codex 的訓練數據尚未公開,這阻礙了研究人員改進 AI 模型或研究其某些方面,例如互操作性。

研究人員說:“大型科技公司沒有公開發布他們的模型,這確實阻礙了科學研究和此類大型語言代碼模型的民主化。” “在某種程度上,我們希望我們的開源努力能夠說服其他人也這樣做。 但總體而言,社區應該能夠自行訓練這些模型。 我們的模型突破了您可以在單個服務器上訓練的極限——任何更大的東西都需要一個服務器池,這大大增加了成本。”

終於 如果您有興趣了解更多信息,您可以在中查看詳細信息 以下鏈接。


發表您的評論

您的電子郵件地址將不會被發表。 必填字段標有 *

*

*

  1. 負責數據:MiguelÁngelGatón
  2. 數據用途:控制垃圾郵件,註釋管理。
  3. 合法性:您的同意
  4. 數據通訊:除非有法律義務,否則不會將數據傳達給第三方。
  5. 數據存儲:Occentus Networks(EU)託管的數據庫
  6. 權利:您可以隨時限制,恢復和刪除您的信息。