DeepSpeech: Mozilla の音声認識エンジン

現在、Mozillaは人気のあるWebブラウザで動作するだけでなく、その傘下にさまざまなプロジェクトがあります。 今日はDeepSpeechについてお話します。これは 音声認識エンジン これは、Baiduの研究者によって提案された同名の音声認識アーキテクチャを実装しています。

DeepSpeechは、さまざまなトレーニング済みモデルを提供することで際立っています、サンプルオーディオファイルとコマンドライン認識ツール。音声認識機能をプログラムに統合します。それのための すぐに使用できるモジュールは、Python、NodeJS、C ++、および.NET用に提供されていますただし、外部の開発者もRustとGo用に別々のモジュールを用意しました。

完成したモデルは英語でのみ提供されますが、添付の手順に従って他の言語では、CommonVoiceプロジェクトによって収集された音声データを使用してシステムをトレーニングできます。

DeepSpeechについて

DeepSpeechは、従来のシステムよりもはるかにシンプルです 同時に、外部ノイズの存在下でより高品質の認識を提供します。

開発 従来の音響モデルと音素の概念を使用していません; 代わりに、 機械学習システムを使用する 十分に最適化されたニューラルネットワークベース。これにより、ノイズ、エコー、音声特性などのさまざまな偏差をモデル化するために個別のコンポーネントを開発する必要がなくなります。

このアプローチの裏側は、ニューラルネットワークであるモーターの高品質な認識とトレーニングを取得することです。 DeepSpeechは大量のデータを必要とします 異なる声によって実際の条件で、自然なノイズの存在下で指示された異種。

Mozillaで作成されたCommonVoiceプロジェクトは、そのようなデータの収集を担当し、英語で780時間、ドイツ語で325時間、フランス語で173時間、ロシア語で27時間の実績のあるデータセットを提供します。

最終目標 CommonVoiceプロジェクトから さまざまな発音の録音で10万時間の蓄積です 許容可能なレベルの認識エラーを達成する、人間の発話に典型的なフレーズ。現在の形式では、プロジェクト参加者はすでに合計4.3千時間を教えており、そのうち3.5千時間はテストに合格しています。

DeepSpeechの最終的な英語モデルを教える際に、LibriSpeech、Fisher、Switchboardからのプロジェクトデータを含むCommon Voiceを除いて、3816時間のスピーチが使用され、約1700時間の転写されたラジオ番組の録音が含まれていました。

英語のすぐにダウンロードできるモデルを使用する場合、 DeepSpeechの認識エラーのレベルは7,5％です LibriSpeechテストスイートで評価した場合。比較として、人間の認識におけるエラーのレベルは5.83％と推定されています。

DeepSpeechは、音響モデルとデコーダーのXNUMXつのサブシステムで構成されています。 音響モデルは、深層機械学習手法を使用して、入力音に特定の文字が存在する確率を計算します。デコーダーは、光線検索アルゴリズムを使用して、文字確率データをテキスト表現に変換します。

DeepSpeechの新バージョンについて

DeepSpeechは現在バージョン0.6です 以下の変更が強調表示されています。

応答性が高く、処理されたオーディオデータのサイズに依存しない新しい伝送デコーダが提案されています。
APIに変更が加えられ、関数名を統一するための作業が行われました。タイミングに関する追加のメタデータを取得する機能が追加され、出力でテキスト表現を受信できるだけでなく、オーディオストリーム内の位置への個々の文字や文のバインドを追跡できるようになりました。
CuDNNライブラリを使用してリカレントニューラルネットワーク（RNN）での作業を最適化するためのサポートが、トレーニングモジュールのツールキットに追加されました。
TensorFlowバージョンの最小要件が1.13.1から1.14.0に引き上げられました。
DeepSpeechパッケージサイズを98MBから3.7MBに削減するTensorFlowLite LightEditionのサポートが追加されました。
言語モデルは別のデータ構造形式に転送され、起動時にファイルをメモリに割り当てることができます。
古い形式のサポートは終了しました。

実装は、TensorFlow機械学習プラットフォームを使用してPythonで記述され、無料のMPL2.0ライセンスの下で配布されます。仕事 Linux、Android、macOS、Windowsでサポートされています。 LePotato、Raspberry Pi 3、およびRaspberry Pi4ボードでモーターを使用するのに十分なパフォーマンスがあります。

DesdeLinux

DeepSpeech：Mozillaの音声認識エンジン

DeepSpeechについて

DeepSpeechの新バージョンについて

コメントを残す返信をキャンセル

DeepSpeechについて

DeepSpeechの新バージョンについて

コメントを残す 返信をキャンセル

コメントを残す返信をキャンセル