現在のところ、 増加が見られ始めました に関連して彼らが提供し始めているさまざまなソリューション 人工知能を使用したコード生成 (AI)そしてそれは自然言語処理(NLP)の分野が、さまざまなプログラミング言語での一連のコード生成AIへの道を開いたということです。
そのうちの たとえば、GitHub Copilot、AlphaCode、Codexを強調表示できます これに、手から新しいソリューションを追加できるようになりました。 カーネギーメロン大学の研究者 誰 最近導入された「PolyCoder」、 2のプログラミング言語で249GBのコードデータベースでトレーニングされたOpenAIのGPT-12言語モデルに基づくコードジェネレーター。
PolyCoderについて
PolyCoderの作者は、 Codexを含む既知のモデルよりも正確にCを書き込むことができます。
AIを生成するコード、 さまざまなプログラミング言語でソースコードを書くことができます すぐに、開発者が反復性の少ない創造的なタスクに集中できるようにしながら、ソフトウェア開発コストを削減することが約束されます。
PolyCoderは、さまざまなGitHubリポジトリからのデータを利用しており、12の一般的なプログラミング言語をカバーしています。 C、C#、C ++、Go、Java、JavaScript、PHP、Python、Ruby、Rust、Scala、およびTypeScript。
フィルタリングされていないデータセットは、合計631GBのデータと38,9万のファイルでした。 チームは言った 予算の制約から、GPT-2を使用してPolyCoderをトレーニングすることを選択しました。 PolyCoderはオープンソースとして利用可能であり、研究者たちは、これまで資金の豊富な企業によって支配されてきたAIコード生成の分野での研究を民主化できることを望んでいます。
研究者はPolyCoderが C言語でコードを生成する場合、他のモデルよりもうまく機能します。 ただし、Codexは常に他の言語よりも優れています。 「PolyCoderは、CodexやC言語の他のすべてのモデルを劇的に上回っています。
「昨年の夏にCopilotがGitHubに登場したとき、これらの非常に大きな言語コードモデルは、開発者を支援し、生産性を向上させるのに非常に役立つことが明らかになりました。 しかし、その規模に近いモデルも公開されていませんでした」と研究者たちは電子メールでVentureBeatに語った。 「[PolyCoder]は、Vincentがラボサーバーでトレーニングできる最大のモデルを見つけようとしていたところ、最終的には2700億個のパラメーターになりました。そのモデルは、他のコード指向モデルよりも優れていました。当時は公に利用可能でした。」
オープンソースモデルのみを比較する場合、 PolyCoderは、C、JavaScript、Rust、Scala、およびTypeScriptで同様のサイズのGPT-Neo2.7Bモデルよりも優れています。」 彼らは指摘します「他の11の言語では、私たち自身を含む他のすべてのオープンソースモデルはCodexよりも大幅に劣っています(より複雑です)」とCMUの研究者は付け加えました。
これにより、PolyCoderは非常に興味深いソリューションとして位置付けられます。ElonMuskのOpenAIやAlphabetのDeepMindなどの研究所が強力なコード生成AIを開発した一方で、最も成功したシステムの多くはオープンソースでは利用できないためです。 低所得企業はそれにアクセスできず、この状況はこの分野での研究を制限します。
たとえば、GitHubのコパイロット機能を強化するOpenAI Codexのトレーニングデータは公開されていないため、研究者はAIモデルを改良したり、相互運用性などの特定の側面を研究したりすることができません。
「大手ハイテク企業はモデルを公開しておらず、科学的研究とそのような大規模な言語コードモデルの民主化を実際に妨げている」と研究者らは述べた。 「ある程度、私たちのオープンソースの取り組みが他の人にも同じことをするように説得することを願っています。 しかし、全体像は、コミュニティがこれらのモデルを独自にトレーニングできるようにする必要があるということです。 私たちのモデルは、単一のサーバーでトレーニングできるものの限界を押し上げました。それよりも大きいものにはサーバーのプールが必要であり、これによりコストが大幅に増加します。」
最後に あなたがそれについてもっと知りたいなら、詳細はで確認できます 次のリンク。