Mozilla 推出 DeepSpeech 0.9 语音识别引擎

发布已发布 语音识别引擎 由Mozilla开发的DeepSpeech 0.9，它实现了 语音识别 百度研究人员提出的同名。

实施 用Python编写，使用 机器学习平台 TensorFlow 并根据免费的MPL 2.0许可证进行分发。

关于DeepSpeech

DeepSpeech包含两个子系统： 声学模型和解码器。声学模型使用深度机器学习技术来计算某些字符出现在输入声音中的概率。

解码器使用射线搜索算法将字符概率数据转换为文本表示形式。 DeepSpeech比传统系统简单得多，同时在存在外部噪声的情况下可提供更高的识别质量。

该开发没有使用传统的声学模型和音素的概念。取而代之的是，使用了基于神经网络的优化优化的机器学习系统，该系统无需开发单独的组件来对各种异常（例如噪声，回声和语音特征）进行建模。

套件 提供训练有素的模型，样本声音文件 和命令行识别工具。

成品模型仅提供英语和中文。 对于其他语言，您可以使用Common Voice项目收集的语音数据，根据随附的说明自己学习系统。

何时 使用了可供下载的英语的即用型模型， 当使用LibriSpeech测试套件进行评估时，DeepSpeech中的识别错误级别为7.06％。

为了比较，人类识别错误率估计为5,83％。

在所提出的模型中，最好的识别结果是在无外部噪音的环境中，通过清晰录制带有美国口音的男性声音来实现的。

Vosk连续语音识别库的作者认为，“通用语音”集的缺点是语音材料的单面性（男性在20多和30年代占主导地位，而缺乏女性，儿童和儿童的声音和老年人），缺乏词汇变异性（重复相同的短语）以及MP3录音的分布容易失真。

DeepSpeech的缺点包括性能不佳 解码器中的高内存消耗以及训练模型所需的重要资源（Mozilla使用的系统具有8个Quadro RTX 6000 GPU，每个GPU均具有24GB VRAM）。

这种方法的缺点是 用于神经网络的高质量识别和训练，DeepSpeech引擎 需要大量数据 异质性是在实际条件下由不同的声音和自然噪声所决定的。

该数据由在Mozilla中创建的Common Voice项目编译，该项目提供了经过验证的数据集，其中包括英语1469小时，德语692小时，法语554小时，俄语105小时和乌克兰语22小时。

在训练DeepSpeech的最终英语模型时，除了Common Voice之外，还使用了LibriSpeech，Fisher和Switchboard项目的数据，以及大约1700个小时的转录广播节目录音。

在新分支的更改之间， 强调了单词重音的可能性 在解码过程中选择。

它还强调了在训练神经网络时对Electron 9.2平台的支持以及层归一化机制（Layer Norm）的可选实现。

该性能足以在LePotato，Raspberry Pi 3和Raspberry Pi 4板以及Google Pixel 2，Sony Xperia Z Premium和Nokia 1.3智能手机中使用电动机。

提供就绪模块用于Python，NodeJS，C ++和.NET，以将语音识别功能集成到您的程序中（第三方开发人员已经为Rust，Go和V分别准备了模块）。