自動音声認識システム Whisper のソースコードを公開

ウィスパーは自動音声認識システムです

最近のプロジェクト OpenAI、人工知能の分野で公共プロジェクトを開発し、 ニュースを公開しました 音声認識システム関連 ささやき、 これは 自動音声認識システム (ASR) Web から収集された 680.000 時間の多言語、マルチタスクの教師付きデータでトレーニングされました。

英語の音声については、このシステムは人間の認識に近いレベルの自動認識の信頼性と精度を提供すると主張されています。

このような大規模で多様なデータセットを使用すると、アクセント、バックグラウンドノイズ、および技術用語に対する堅牢性が向上することが示されています。さらに、さまざまな言語での文字起こし、およびそれらの言語の英語への翻訳が可能です。私たちはオープンソースのモデルと推論コードであり、有用なアプリケーションを構築し、堅牢な音声処理に関する将来の研究の基盤となります。

モデルについて（すでに述べたように） 680 時間かけてトレーニング さまざまな言語と主題領域をカバーするさまざまなコレクションから収集された音声データの。トレーニングに含まれる音声データの約 1/3 は英語以外の言語です。

提案されたシステム アクセントのある発音などの状況を正しく処理し、 バックグラウンドノイズの存在と専門用語の使用。このシステムは、音声をテキストに書き起こすだけでなく、任意の言語の音声を英語に翻訳し、オーディオストリーム内の音声の出現を検出することもできます。

モデルは、英語のモデルと、スペイン語、ロシア語、イタリア語、ドイツ語、日本語、ウクライナ語、ベラルーシ語、中国語、およびその他の言語をサポートする多言語モデルの 5 つの表現でトレーニングされます。次に、各ビューは XNUMX つのオプションに分割され、モデルでカバーされるパラメーターのサイズと数が異なります。

Whisper アーキテクチャは、エンコーダー/デコーダートランスフォーマーとして実装された単純なエンドツーエンドのアプローチです。入力オーディオは 30 秒のチャンクに分割され、log-Mel スペクトログラムに変換されてから、エンコーダーに渡されます。デコーダーは、言語識別、文レベルのタイムスタンプ、多言語の音声文字起こし、英語への音声翻訳などのタスクを実行するように一意のモデルに指示する特別なトークンが散在する、対応するテキストサブタイトルを予測するようにトレーニングされます。

サイズが大きいほど、認識の精度と品質が高くなりますが、GPU ビデオメモリサイズの要件が高くなり、パフォーマンスが低下します。たとえば、最小オプションには 39 万のパラメーターが含まれ、1 GB のビデオメモリが必要ですが、最大オプションには 1550 億のパラメーターが含まれ、10 GB のビデオメモリが必要です。最小バリアントは、最大バリアントの 32 倍高速です。

このシステムは「Transformer」ニューラルネットワークアーキテクチャを使用しており、 これには、相互に対話するエンコーダーとデコーダーが含まれます。オーディオは 30 秒のチャンクに分割され、log-Mel スペクトログラムに変換されてエンコーダに送信されます。

エンコーダーの作業の結果がデコーダーに送信されます、言語検出、文の発音年表アカウンティング、さまざまな言語での音声の書き起こし、一般的なモデルでの英語の翻訳などのタスクを解決できる特別なトークンと混合されたテキスト表現を予測します。

Whisper のパフォーマンスは言語によって大きく異なることに注意してください。したがって、よりよく理解できるのは英語であり、英語だけで XNUMX つのバージョンがあり、他の言語の他のモデルと同様に、長所と短所があります。スピードと正確さ。

最後に あなたがそれについてもっと知りたいのなら、 元の出版物はで確認できますこのリンク、ソースコードとトレーニング済みモデルに興味がある場合は、次の URL で参照できます。このリンクをクリックします。

PyTorch フレームワークに基づく参照実装コードと、トレーニング済みの一連のモデルが公開されており、すぐに使用できます。コードは MIT ライセンスの下でオープンソースであり、ffmpeg ライブラリの使用が必要であることに言及する価値があります。

DesdeLinux

自動音声認識システムWhisperのソースコードを公開

コメントを残す返信をキャンセル

コメントを残す 返信をキャンセル

コメントを残す返信をキャンセル