単一の GPU で AI ボットを実行するためのエンジン、FlexGen

フレックスジェン

FlexGen は、大規模な言語モデルの推論リソース要件を単一の GPU に削減する目的で構築されたエンジンです。

最近リリースされたニュースは 研究者のグループ スタンフォード大学、カリフォルニア大学バークレー校、チューリッヒ工科大学、経済学大学院、カーネギー メロン大学、および Yandex と Meta は、のソース コードを公開しています。 un 大規模な言語モデルを実行するためのエンジン リソースが限られているシステムで。

コードネームで «FlexGen» は、大幅に削減することを目的としたプロジェクトです。 必要条件 LLM 推論操作のリソース。 GitHub に投稿された FlexGen には Python と PyTorch のみが必要ですが、ほとんどの場合、NVIDIA Tesla T4 や GeForce RTX 3090 などの単一の GPU で使用できます。

例えば このエンジンは、ChatGPT や Copilot に似た機能を作成する機能を提供します 175 GB のビデオ メモリを搭載した NVIDIA RTX175 ゲーム用グラフィックス カードを搭載した通常のコンピューターで、3090 億のパラメーターをカバーする事前トレーニング済みの OPT-24B モデルを実行します。

(LLM) モデルは、ChatGPT や Copilot などのツールの操作をサポートすることが言及されています。 これらは、数十億のパラメーターを使用し、膨大な量のデータでトレーニングされる大規模なモデルです。

LLM 推論タスクの計算とメモリの要件が高いため、通常、ハイエンドのアクセラレータを使用する必要があります。

一般の人々が FlexGen に本当に興奮していることをうれしく思います。 ただし、私たちの作業はまだ準備中であり、公開/発表の準備はまだ整っていません。 このプロジェクトに関する初期のフィードバックから、この README と私たちのドキュメントの初期のバージョンでは、FlexGen の目的が不明確であることがわかりました。 これは、LLM のリソース要件を削減するための予備的な取り組みですが、多くの制限もあり、十分なリソースが利用可能な場合のユース ケースに取って代わるものではありません。

LLM 推論は、言語モデルを使用して入力テキストに関する予測を生成するプロセスです。これには、GPT (Generative Pretrained Transformer) などの生成モデルなどの言語モデルを使用して、最も可能性の高いものについて予測を行うことが含まれます。発生する。 特定の入力キャプチャ テキストの後に応答として提供されます。

FlexGenについて

パッケージには、ボットを作成するためのサンプル スクリプトが含まれています。 これにより、ユーザーは 公開されている言語モデルの XNUMX つをダウンロードする すぐにチャットを開始できます。

基本として、BookCorpus コレクション (10 万冊)、CC-Stories、Pile (OpenSubtitles、Wikipedia、DM Mathematics、HackerNews など)、Pushshift.io でトレーニングされた、Facebook によって公開された大規模な言語モデルを使用することが提案されています。 (Reddit データに基づく)) および CCNewsV2 (ニュース アーカイブ)。

このモデルは、約 180 億のトークン (800 GB のデータ) をカバーしています。 モデルをトレーニングするために、33 個の NVIDIA A992 100 GB GPU でクラスターを実行するのに 80 日かかりました。

単一の NVIDIA T175 GPU (4 GB) を搭載したシステムで OPT-16B を実行すると、FlexGen エンジンは、以前に提供されたソリューションよりも最大 100 倍高速なパフォーマンスを示し、大規模な言語モデルの使用をより手頃な価格にし、専用のアクセラレータなしでシステムで実行できるようにしました。

同時に、FlexGen は、複数の GPU の存在下で計算を並列化するように拡張できます。 モデルのサイズを縮小するために、追加のパラメーター圧縮スキームとモデル キャッシュ メカニズムが使用されます。

現在のところ、 FlexGen は OPT 言語モデルのみをサポートします、しかし将来的には、開発者は BLOOM (176 億のパラメーター、46 の言語と 13 のプログラミング言語をサポート)、CodeGen (22 のプログラミング言語でコードを生成できる)、および GLM のサポートを追加することも約束しています。

最後に、コードは Python で記述され、PyTorch フレームワークを使用し、Apache 2.0 ライセンスの下で配布されていることに言及する価値があります。

のために それについてもっと知りたい、詳細を確認できます 次のリンクで。


コメントを残す

あなたのメールアドレスが公開されることはありません。 必須フィールドには付いています *

*

*

  1. データの責任者:MiguelÁngelGatón
  2. データの目的:SPAMの制御、コメント管理。
  3. 正当化:あなたの同意
  4. データの伝達:法的義務がある場合を除き、データが第三者に伝達されることはありません。
  5. データストレージ:Occentus Networks(EU)がホストするデータベース
  6. 権利:いつでも情報を制限、回復、削除できます。