自動音声認識システムWhisperのソースコードを公開

ウィスパー

ウィスパーは自動音声認識システムです

最近のプロジェクト OpenAI、人工知能の分野で公共プロジェクトを開発し、 ニュースを公開しました 音声認識システム関連 ささやき、 これは 自動音声認識システム (ASR) Web から収集された 680.000 時間の多言語、マルチタスクの教師付きデータでトレーニングされました。

英語の音声については、このシステムは人間の認識に近いレベルの自動認識の信頼性と精度を提供すると主張されています。

このような大規模で多様なデータセットを使用すると、アクセント、バックグラウンド ノイズ、および技術用語に対する堅牢性が向上することが示されています。 さらに、さまざまな言語での文字起こし、およびそれらの言語の英語への翻訳が可能です。 私たちはオープンソースのモデルと推論コードであり、有用なアプリケーションを構築し、堅牢な音声処理に関する将来の研究の基盤となります。

モデルについて(すでに述べたように) 680 時間かけてトレーニング さまざまな言語と主題領域をカバーするさまざまなコレクションから収集された音声データの。 トレーニングに含まれる音声データの約 1/3 は英語以外の言語です。

提案されたシステム アクセントのある発音などの状況を正しく処理し、 バックグラウンド ノイズの存在と専門用語の使用。 このシステムは、音声をテキストに書き起こすだけでなく、任意の言語の音声を英語に翻訳し、オーディオ ストリーム内の音声の出現を検出することもできます。

モデルは、英語のモデルと、スペイン語、ロシア語、イタリア語、ドイツ語、日本語、ウクライナ語、ベラルーシ語、中国語、およびその他の言語をサポートする多言語モデルの 5 つの表現でトレーニングされます。 次に、各ビューは XNUMX つのオプションに分割され、モデルでカバーされるパラメーターのサイズと数が異なります。

Whisper アーキテクチャは、エンコーダー/デコーダー トランスフォーマーとして実装された単純なエンド ツー エンドのアプローチです。 入力オーディオは 30 秒のチャンクに分割され、log-Mel スペクトログラムに変換されてから、エンコーダーに渡されます。 デコーダーは、言語識別、文レベルのタイムスタンプ、多言語の音声文字起こし、英語への音声翻訳などのタスクを実行するように一意のモデルに指示する特別なトークンが散在する、対応するテキスト サブタイトルを予測するようにトレーニングされます。

サイズが大きいほど、認識の精度と品質が高くなりますが、GPU ビデオ メモリ サイズの要件が高くなり、パフォーマンスが低下します。 たとえば、最小オプションには 39 万のパラメーターが含まれ、1 GB のビデオ メモリが必要ですが、最大オプションには 1550 億のパラメーターが含まれ、10 GB のビデオ メモリが必要です。 最小バリアントは、最大バリアントの 32 倍高速です。

このシステムは「Transformer」ニューラル ネットワーク アーキテクチャを使用しており、 これには、相互に対話するエンコーダーとデコーダーが含まれます。 オーディオは 30 秒のチャンクに分割され、log-Mel スペクトログラムに変換されてエンコーダに送信されます。

エンコーダーの作業の結果がデコーダーに送信されます、言語検出、文の発音年表アカウンティング、さまざまな言語での音声の書き起こし、一般的なモデルでの英語の翻訳などのタスクを解決できる特別なトークンと混合されたテキスト表現を予測します。

Whisper のパフォーマンスは言語によって大きく異なることに注意してください。したがって、よりよく理解できるのは英語であり、英語だけで XNUMX つのバージョンがあり、他の言語の他のモデルと同様に、長所と短所があります。スピードと正確さ。

最後に あなたがそれについてもっと知りたいのなら、 元の出版物はで確認できます このリンク、ソース コードとトレーニング済みモデルに興味がある場合は、次の URL で参照できます。 このリンクをクリックします。

PyTorch フレームワークに基づく参照実装コードと、トレーニング済みの一連のモデルが公開されており、すぐに使用できます。 コードは MIT ライセンスの下でオープン ソースであり、ffmpeg ライブラリの使用が必要であることに言及する価値があります。


コメントを残す

あなたのメールアドレスが公開されることはありません。 必須フィールドには付いています *

*

*

  1. データの責任者:MiguelÁngelGatón
  2. データの目的:SPAMの制御、コメント管理。
  3. 正当化:あなたの同意
  4. データの伝達:法的義務がある場合を除き、データが第三者に伝達されることはありません。
  5. データストレージ:Occentus Networks(EU)がホストするデータベース
  6. 権利:いつでも情報を制限、回復、削除できます。