Mozilla presenta el motor de reconocimiento de voz DeepSpeech 0.9

発売が公開されました 音声認識エンジン Mozillaによって開発されたDeepSpeech0.9、のアーキテクチャを実装します 音声認識 Baiduの研究者によって提案された同じ名前の。

実装 を使用してPythonで書かれています 機械学習プラットフォーム TensorFlow 無料のMPL2.0ライセンスの下で配布されます。

DeepSpeechについて

DeepSpeechは、次のXNUMXつのサブシステムで構成されています。 音響モデルとデコーダー。音響モデルは、深い機械学習技術を使用して、特定の文字が入力音に存在する確率を計算します。

デコーダーは、光線検索アルゴリズムを使用して、文字確率データをテキスト表現に変換します。 DeepSpeechは、従来のシステムよりもはるかにシンプルであると同時に、外部ノイズが存在する場合でも高品質の認識を提供します。

開発では、従来の音響モデルと音韻の概念を使用していません。代わりに、十分に最適化されたニューラルネットワークベースの機械学習システムが使用されます。これにより、ノイズ、エコー、音声特性などのさまざまな異常をモデル化するために個別のコンポーネントを開発する必要がなくなります。

キット トレーニング済みモデル、サンプルサウンドファイルを提供します およびコマンドライン認識ツール。

完成したモデルは、英語と中国語のみで提供されます。 他の言語の場合は、Common Voiceプロジェクトによって収集された音声データを使用して、添付の手順に従ってシステムを自分で学習できます。

時 ダウンロード用に提供されている英語のすぐに使用できるモデルが使用され、 LibriSpeechテストスイートを使用して評価した場合、DeepSpeechの認識エラーのレベルは7.06％です。

比較のために、人間の認識エラー率は5,83％と推定されています。

提案されたモデルでは、外部ノイズのない環境で、アメリカのアクセントのある男性の声をきれいに録音することで、最高の認識結果が得られます。

Vosk連続音声認識ライブラリの作成者によると、Common Voiceセットの欠点は、音声資料の一方的なものです（20代と30代の男性が優勢であり、女性、子供、高齢者）、語彙の変動性の欠如（同じフレーズの繰り返し）、および歪みが発生しやすいMP3録音の分布。

DeepSpeechの欠点には、パフォーマンスの低下が含まれます デコーダーでの高いメモリ消費、およびモデルをトレーニングするための重要なリソース（Mozillaは、それぞれに8GBのVRAMを備えた6000つのQuadro RTX 24 GPUを備えたシステムを使用します）。

このアプローチの欠点は、 ニューラルネットワークの高品質な認識とトレーニングのために、DeepSpeechエンジン 大量のデータが必要 異なる声によって実際の条件で、自然なノイズの存在下で指示された不均一。

このデータは、Mozillaで作成されたCommon Voiceプロジェクトによって編集され、英語で1469時間、ドイツ語で692時間、フランス語で554時間、ロシア語で105時間、ウクライナ語で22時間の検証済みデータセットを提供します。

DeepSpeechの最終的な英語モデルをトレーニングするときは、Common Voiceに加えて、LibriSpeech、Fisher、およびSwitchboardプロジェクトからのデータと、転写されたラジオ番組の約1700時間の録音が追加で使用されます。

新しいブランチでの変更の合間に、 単語の重みを強制する可能性が強調されています デコードプロセス中に選択されます。

また、Electron 9.2プラットフォームのサポートと、ニューラルネットワークをトレーニングする際のレイヤー正規化メカニズム（レイヤーノルム）のオプションの実装についても説明します。

パフォーマンスは、LePotato、Raspberry Pi 3、Raspberry Pi 4ボード、およびGoogle Pixel 2、Sony Xperia Z Premium、Nokia1.3スマートフォンでモーターを使用するのに十分です。

レディモジュールが提供されます Python、NodeJS、C ++、および.NETで使用して、音声認識機能をプログラムに統合します（サードパーティの開発者は、Rust、Go、およびV用に個別にモジュールを用意しています）。