Mozilla 推出 DeepSpeech 0.9 語音辨識引擎

發布已發布 語音識別引擎 由Mozilla開發的DeepSpeech 0.9，它實現了 語音識別 百度研究人員提出的同名。

實施 用Python編寫，使用 機器學習平台 TensorFlow 並根據免費的MPL 2.0許可證進行分發。

關於DeepSpeech

DeepSpeech包含兩個子系統： 聲學模型和解碼器。聲學模型使用深度機器學習技術來計算某些字符出現在輸入聲音中的概率。

解碼器使用射線搜索算法將字符概率數據轉換為文本表示形式。 DeepSpeech比傳統系統簡單得多，同時在存在外部噪聲的情況下可提供更高的識別質量。

該開發未使用傳統的聲學模型和音素的概念；取而代之的是，使用了基於神經網絡的優化優化的機器學習系統，該系統無需開發單獨的組件來對各種異常進行建模，例如噪聲，迴聲和語音特徵。

套件 提供訓練有素的模型，樣本聲音文件 和命令行識別工具。

成品模型僅提供英語和中文。 對於其他語言，您可以使用Common Voice項目收集的語音數據，根據隨附的說明自己學習系統。

當 使用了可供下載的英語即用型模型， 當使用LibriSpeech測試套件進行評估時，DeepSpeech中的識別錯誤級別為7.06％。

為了比較，人類識別錯誤率估計為5,83％。

在所提出的模型中，最好的識別結果是在無外部噪音的環境中，通過清晰錄製帶有美國口音的男性聲音來實現的。

Vosk連續語音識別庫的作者認為，“通用語音”集的缺點是語音材料的單面性（20至30歲的男性占主導地位，而女性，兒童和女性的語音缺乏材料）老年人），缺乏詞彙變異性（重複相同的短語）以及MP3錄音的分佈容易失真。

DeepSpeech的缺點包括性能不佳 解碼器中的高內存消耗以及訓練模型所需的重要資源（Mozilla使用的系統具有8個Quadro RTX 6000 GPU，每個GPU均具有24GB VRAM）。

這種方法的缺點是 用於神經網絡的高質量識別和訓練，DeepSpeech引擎 需要大量數據 異質性是在實際條件下由不同的聲音和自然噪聲所決定的。

該數據由在Mozilla中創建的Common Voice項目編譯，該項目提供了經過驗證的數據集，其中包括英語1469小時，德語692小時，法語554小時，俄語105小時和烏克蘭語22小時。

在訓練DeepSpeech的最終英語模型時，除了Common Voice之外，還使用了LibriSpeech，Fisher和Switchboard項目的數據，以及大約1700個小時的轉錄無線電節目記錄。

在新分支的更改之間， 強調了單詞重音的可能性 在解碼過程中選擇。

它還強調了在訓練神經網絡時對Electron 9.2平台的支持以及層歸一化機制（Layer Norm）的可選實現。

該性能足以在LePotato，Raspberry Pi 3和Raspberry Pi 4板以及Google Pixel 2，Sony Xperia Z Premium和Nokia 1.3智能手機中使用電動機。

提供就緒模塊用於Python，NodeJS，C ++和.NET，以將語音識別功能集成到您的程序中（第三方開發人員已經為Rust，Go和V分別準備了模塊）。