Mozilla представляет систему распознавания голоса DeepSpeech 0.9

Запуск опубликован движок распознавания голоса DeepSpeech 0.9, разработанный Mozilla, реализующий архитектуру распознавание речи одноименного названия, предложенного исследователями Baidu.

Реализация написан на Python с использованием платформа машинного обучения TensorFlow и распространяется под бесплатной лицензией MPL 2.0.

О DeepSpeech

DeepSpeech состоит из двух подсистем: акустическая модель и декодер. Акустическая модель использует методы глубокого машинного обучения для расчета вероятности присутствия определенных символов во входном звуке.

Декодер использует алгоритм поиска лучей для преобразования данных вероятности символа в текстовое представление. DeepSpeech намного проще традиционных систем и в то же время обеспечивает более высокое качество распознавания при наличии посторонних шумов.

В разработке не используются традиционные акустические модели и концепция фонем; вместо этого используется хорошо оптимизированная система машинного обучения на основе нейронных сетей, которая устраняет необходимость в разработке отдельных компонентов для моделирования различных аномалий, таких как шум, эхо и характеристики речи.

комплект предлагает обученные модели, образцы звуковых файлов и инструменты распознавания командной строки.

Готовая модель поставляется только на английском и китайском языках. Для других языков вы можете изучить систему самостоятельно в соответствии с прилагаемыми инструкциями, используя голосовые данные, собранные проектом Common Voice.

Cuando используется готовая к использованию модель английского языка, предлагаемая для скачивания, уровень ошибок распознавания в DeepSpeech составляет 7.06% при оценке с помощью набора тестов LibriSpeech.

Для сравнения, коэффициент ошибок распознавания человеком оценивается в 5,83%.

В предложенной модели лучший результат распознавания достигается при чистой записи мужского голоса с американским акцентом в среде без посторонних шумов.

По словам автора библиотеки Vosk Continuous Speech Recognition Library, недостатками набора Common Voice является односторонность речевого материала (преобладание мужчин в возрасте от 20 до 30 лет и отсутствие материала с голосом женщин, детей и т. пожилые люди), отсутствие вариативности словарного запаса (повторение одних и тех же фраз) и распространение MP3-записей, подверженных искажениям.

К недостаткам DeepSpeech можно отнести низкую производительность. и высокое потребление памяти в декодере, а также важные ресурсы для обучения модели (Mozilla использует систему с 8 графическими процессорами Quadro RTX 6000 с 24 ГБ видеопамяти в каждом).

Обратной стороной этого подхода является то, что для качественного распознавания и обучения нейронной сети, движок DeepSpeech требует большого количества данных неоднородность, продиктованная в реальных условиях разными голосами и при наличии естественных шумов.

Эти данные собираются проектом Common Voice, созданным в Mozilla, который предоставляет проверенный набор данных с 1469 часами на английском, 692 на немецком, 554 на французском, 105 часами на русском и 22 часами на украинском.

При обучении итоговой модели английского языка для DeepSpeech, помимо Common Voice, дополнительно используются данные из проектов LibriSpeech, Fisher и Switchboard, а также около 1700 часов записей транскрибированных радиопрограмм.

Между изменениями в новой ветке, выделена возможность форсирования веса слов выбирается в процессе декодирования.

Он также подчеркивает поддержку платформы Electron 9.2 и дополнительную реализацию механизма нормализации уровня (Layer Norm) при обучении нейронной сети.

Скачайте и получите

Производительности достаточно для использования мотора в платах LePotato, Raspberry Pi 3 и Raspberry Pi 4, а также в смартфонах Google Pixel 2, Sony Xperia Z Premium и Nokia 1.3.

Предлагаются готовые модули использовать для Python, NodeJS, C ++ и .NET для интеграции функций распознавания речи в ваши программы (сторонние разработчики имеют отдельно подготовленные модули для Rust, Go и V).

Оставьте свой комментарий Отменить ответ

Ваш электронный адрес не будет опубликован. Обязательные для заполнения поля помечены *

комментарий *

Имя*

Электронная почта*

Принять условия конфиденциальности*

Ответственный за данные: Мигель Анхель Гатон
Назначение данных: контроль спама, управление комментариями.
Легитимация: ваше согласие
Передача данных: данные не будут переданы третьим лицам, кроме как по закону.
Хранение данных: база данных, размещенная в Occentus Networks (ЕС)
Права: в любое время вы можете ограничить, восстановить и удалить свою информацию.

Я хочу получать рассылку новостей

DesdeLinux

Mozilla представляет механизм распознавания речи DeepSpeech 0.9

О DeepSpeech

Скачайте и получите

Оставьте свой комментарий Отменить ответ