2020年3月、ElonMuskとSamAltmanによって共同設立されたAI企業であるOpenAIは、GPT-XNUMXを公開し、現在の優れたニューラルネットワークとして発表されました。 最先端の言語モデル、 GPT-3には175億のパラメーターが含まれています その前身のGPT-1,5の2億のパラメータと比較して。
GPT-3 NLGチューリングモデルを打ち負かす (Turing Natural Language Generation)Microsoftから、これまで最大のニューラルネットワークの記録を保持していた17億のパラメーターを使用。 言語モデルは驚異的であり、批判され、さらには精査されています。 また、新しくて興味深いアプリケーションも見つかりました。
そして今 GPT-4のリリースという噂が発表されました、OpenAI言語モデルの次のバージョンが間もなく登場する可能性があります。
しかし リリース日はまだ発表されていませんが、 OpenAIは、GPT-3の後継機の特性についていくつかの兆候を示しています。GPT-4はGPT-3より大きくてはいけませんが、より多くの計算リソースを使用する必要があるため、環境への影響が制限されます。
セッション中、 アルトマンはそれをほのめかした、一般的な信念に反して、 GPT-4は最大の言語モデルではありません。 モデルは間違いなく前世代のニューラルネットワークよりも大きくなりますが、サイズはその特徴ではありません。
まず、企業は、パフォーマンスを向上させるための指標としてモデルサイズを使用することが、それを行うための唯一または最良の方法ではないことを認識しています。 2020年に、Jared Kaplanと彼のOpenAIの同僚は、べき乗則の関係に従って、コンピューティングバジェットの増加が主にパラメーターの数の増加に割り当てられると、パフォーマンスが最も向上すると結論付けたと報告されています。 Google、Nvidia、Microsoft、OpenAI、DeepMind、および言語モデルを開発するその他の企業は、これらのガイドラインを額面どおりに採用しています。
しかし、MT-NLG(Megatron-Turing NLG、昨年NvidiaとMicrosoftによって構築された530億のパラメーターを持つニューラルネットワーク)は、それ自体が優れているため、パフォーマンスに関しては最高ではありません。 実際、どのベンチマークカテゴリでも最高とは評価されていません。 GopherやChinchilla(70億個のパラメーター)のような小さなモデルは、そのサイズのほんの一部であり、すべてのタスクでMT-NLGよりもはるかに優れています。 このように、モデルのサイズだけが言語のより良い理解につながる要因ではないことが明らかになりました。
Altmanによると、言語モデルには重大な制限があります。 最適化に関しては。 トレーニングは非常に費用がかかるため、企業は精度とコストの間で妥協する必要があります。 これにより、モデルの最適化が不十分になることがよくあります。
CEOは、他の場合には再訓練につながるいくつかのエラーにもかかわらず、GPT-3は一度だけ訓練されたと報告しました。 このため、OpenAIは、手頃な価格のコストが原因でこれに反対することを決定したと報告されています。これにより、研究者はモデルに最適なハイパーパラメータのセットを見つけることができませんでした。
高いトレーニングコストのもうXNUMXつの結果は、モデルの動作の分析が制限されることです。 あるレポートによると、AI研究者は、モデルサイズがパフォーマンスの向上に最も関連する変数であると結論付けたとき、トレーニングトークンの数、つまりモデルに提供されるデータの量を考慮していませんでした。 これには、膨大な量のコンピューティングリソースが必要でした。 伝えられるところによると、テクノロジー企業は、彼らが持っていた最高のものだったので、研究者の調査結果に従った。
アルトマン GPT-4は前任者よりもはるかに多くの計算を使用すると述べた。 OpenAIは、GPT-4で最適化関連のアイデアを実装することが期待されていますが、予算が不明であるため、どの程度予測することはできません。
ただし、 Altmanは、OpenAIがモデルサイズ以外の変数の最適化に焦点を当てるべきであることを示しています。。 ハイパーパラメータの最適なセット、最適なモデルサイズ、およびパラメータの数を見つけることで、すべてのベンチマークで驚くべき改善がもたらされる可能性があります。
アナリストによると、これらのアプローチをXNUMXつのモデルに組み合わせると、言語モデルのすべての予測が崩壊します。 アルトマンはまた、人々は必ずしも大きくなければ、どれほど優れたモデルができるか信じられないと述べた。 スケーリングの取り組みは今のところ終わっていることを示唆しているかもしれません。
伝えられるところによると、OpenAIはAIアラインメント問題の解決に多大な努力を払っています:言語モデルを人間の意図に従い、人間の価値観に準拠させる方法は?
アナリストは、これは難しい数学的問題(AIに私たちが望むものを正確に理解させる方法)であるだけでなく、哲学的問題でもあると言います(人間の価値観の変動性のため、AIを人間に合わせる普遍的な方法はありませんグループからグループへは巨大で、しばしば矛盾します)。
最後に あなたがそれについてもっと知りたいなら元の投稿を参照できます 次のリンクで。