DeepSpeech：Mozilla 的語音辨識引擎

Mozilla當前不僅可以在其流行的Web瀏覽器上運行，而且還擁有許多項目，其中包括 今天我們將討論DeepSpeech。這是 語音識別引擎 它實現了百度研究人員提出的同名語音識別架構。

DeepSpeech在提供不同訓練有素的模型方面脫穎而出，示例音頻文件和命令行識別工具，以將語音識別功能集成到您的程序中。為了它 提供了適用於Python，NodeJS，C ++和.NET的現成模塊，儘管外部開發人員還為Rust和Go準備了單獨的模塊。

成品模型僅以英語提供，但對於其他語言，根據隨附的說明，可以使用Common Voice項目收集的語音數據來訓練系統。

關於DeepSpeech

DeepSpeech比傳統系統簡單得多 同時，在存在外部噪聲的情況下，它還能提供更高的識別質量。

發展歷程 不使用傳統的聲學模型和音素的概念; 代替， 使用機器學習系統 基於良好優化的神經網絡，無需開發單獨的組件即可對各種偏差（例如噪聲，迴聲和語音特徵）進行建模。

這種方法的另一面是，為了獲得高質量的神經網絡識別和訓練，電機 DeepSpeech需要大量數據 異質性是在真實條件下由不同的聲音和自然噪聲所決定的。

在Mozilla中創建的Common Voice項目負責收集此類數據，並提供經過驗證的數據集，其中包括780小時的英語，德語的325小時，法語的173小時和俄語的27小時。

最終目標 來自Common Voice項目 累積了上萬小時的各種發音 人類語音的典型短語，將實現可接受水平的識別錯誤。按照目前的形式，項目參與者已經教了總計4.3千小時，其中有3.5千小時通過了測試。

在教授DeepSpeech的最終英語模型時，使用了3816個小時的語音，除了Common Voice涵蓋了LibriSpeech，Fisher和Switchboard項目的數據，還包括了大約1700個小時的轉錄廣播節目錄音。

使用英文版的可下載模型時， DeepSpeech中的識別錯誤等級為7,5％ 使用LibriSpeech測試套件進行評估時。通過比較，人類識別中的錯誤水平估計為5.83％。

DeepSpeech包含兩個子系統：聲學模型和解碼器。 聲學模型使用深度機器學習方法來計算輸入聲音中某些字符存在的概率。解碼器使用射線搜索算法將字符概率數據轉換為文本表示形式。

DeepSpeech當前版本為0.6 其中突出顯示了以下更改：

提出了一種新的傳輸解碼器，該傳輸解碼器提供了更大的響應能力，並且不依賴於處理後的音頻數據的大小。
已對API進行了更改，並且已經完成了統一函數名稱的工作。添加了功能以獲得有關時序的其他元數據，不僅允許在輸出中接收文本表示，還可以跟踪單個字符和句子到音頻流中某個位置的綁定。
用於培訓模塊的工具包中添加了對使用CuDNN庫優化遞歸神經網絡（RNN）工作的支持。
TensorFlow版本的最低要求已從1.13.1提高到1.14.0。
增加了對TensorFlow Lite Light Edition的支持，從而將DeepSpeech軟件包的大小從98MB減小到3.7MB。
語言模型已轉移為另一種數據結構格式，允許在啟動時將文件分配到內存。
不再支持較舊的格式。

該實現是使用TensorFlow機器學習平台以Python編寫的，並根據免費的MPL 2.0許可進行分發。工作 在Linux，Android，macOS和Windows上受支持。有足夠的性能可以在LePotato，Raspberry Pi 3和Raspberry Pi 4板上使用電機。