Запуск опубликован движок распознавания голоса DeepSpeech 0.9, разработанный Mozilla, реализующий архитектуру распознавание речи одноименного названия, предложенного исследователями Baidu.
Реализация написан на Python с использованием платформа машинного обучения TensorFlow и распространяется под бесплатной лицензией MPL 2.0.
О DeepSpeech
DeepSpeech состоит из двух подсистем: акустическая модель и декодер. Акустическая модель использует методы глубокого машинного обучения для расчета вероятности присутствия определенных символов во входном звуке.
Декодер использует алгоритм поиска лучей для преобразования данных вероятности символа в текстовое представление. DeepSpeech намного проще традиционных систем и в то же время обеспечивает более высокое качество распознавания при наличии посторонних шумов.
В разработке не используются традиционные акустические модели и концепция фонем; вместо этого используется хорошо оптимизированная система машинного обучения на основе нейронных сетей, которая устраняет необходимость в разработке отдельных компонентов для моделирования различных аномалий, таких как шум, эхо и характеристики речи.
комплект предлагает обученные модели, образцы звуковых файлов и инструменты распознавания командной строки.
Готовая модель поставляется только на английском и китайском языках. Для других языков вы можете изучить систему самостоятельно в соответствии с прилагаемыми инструкциями, используя голосовые данные, собранные проектом Common Voice.
Cuando используется готовая к использованию модель английского языка, предлагаемая для скачивания, уровень ошибок распознавания в DeepSpeech составляет 7.06% при оценке с помощью набора тестов LibriSpeech.
Для сравнения, коэффициент ошибок распознавания человеком оценивается в 5,83%.
В предложенной модели лучший результат распознавания достигается при чистой записи мужского голоса с американским акцентом в среде без посторонних шумов.
По словам автора библиотеки Vosk Continuous Speech Recognition Library, недостатками набора Common Voice является односторонность речевого материала (преобладание мужчин в возрасте от 20 до 30 лет и отсутствие материала с голосом женщин, детей и т. пожилые люди), отсутствие вариативности словарного запаса (повторение одних и тех же фраз) и распространение MP3-записей, подверженных искажениям.
К недостаткам DeepSpeech можно отнести низкую производительность. и высокое потребление памяти в декодере, а также важные ресурсы для обучения модели (Mozilla использует систему с 8 графическими процессорами Quadro RTX 6000 с 24 ГБ видеопамяти в каждом).
Обратной стороной этого подхода является то, что для качественного распознавания и обучения нейронной сети, движок DeepSpeech требует большого количества данных неоднородность, продиктованная в реальных условиях разными голосами и при наличии естественных шумов.
Эти данные собираются проектом Common Voice, созданным в Mozilla, который предоставляет проверенный набор данных с 1469 часами на английском, 692 на немецком, 554 на французском, 105 часами на русском и 22 часами на украинском.
При обучении итоговой модели английского языка для DeepSpeech, помимо Common Voice, дополнительно используются данные из проектов LibriSpeech, Fisher и Switchboard, а также около 1700 часов записей транскрибированных радиопрограмм.
Между изменениями в новой ветке, выделена возможность форсирования веса слов выбирается в процессе декодирования.
Он также подчеркивает поддержку платформы Electron 9.2 и дополнительную реализацию механизма нормализации уровня (Layer Norm) при обучении нейронной сети.
Скачайте и получите
Производительности достаточно для использования мотора в платах LePotato, Raspberry Pi 3 и Raspberry Pi 4, а также в смартфонах Google Pixel 2, Sony Xperia Z Premium и Nokia 1.3.
Предлагаются готовые модули использовать для Python, NodeJS, C ++ и .NET для интеграции функций распознавания речи в ваши программы (сторонние разработчики имеют отдельно подготовленные модули для Rust, Go и V).