Mozilla представляет механизм распознавания речи DeepSpeech 0.9

Глубокая речь1

Запуск опубликован движок распознавания голоса DeepSpeech 0.9, разработанный Mozilla, реализующий архитектуру распознавание речи одноименного названия, предложенного исследователями Baidu.

Реализация написан на Python с использованием платформа машинного обучения TensorFlow и распространяется под бесплатной лицензией MPL 2.0.

О DeepSpeech

DeepSpeech состоит из двух подсистем: акустическая модель и декодер. Акустическая модель использует методы глубокого машинного обучения для расчета вероятности присутствия определенных символов во входном звуке.

Декодер использует алгоритм поиска лучей для преобразования данных вероятности символа в текстовое представление. DeepSpeech намного проще традиционных систем и в то же время обеспечивает более высокое качество распознавания при наличии посторонних шумов.

В разработке не используются традиционные акустические модели и концепция фонем; вместо этого используется хорошо оптимизированная система машинного обучения на основе нейронных сетей, которая устраняет необходимость в разработке отдельных компонентов для моделирования различных аномалий, таких как шум, эхо и характеристики речи.

комплект предлагает обученные модели, образцы звуковых файлов и инструменты распознавания командной строки.

Готовая модель поставляется только на английском и китайском языках. Для других языков вы можете изучить систему самостоятельно в соответствии с прилагаемыми инструкциями, используя голосовые данные, собранные проектом Common Voice.

Cuando используется готовая к использованию модель английского языка, предлагаемая для скачивания, уровень ошибок распознавания в DeepSpeech составляет 7.06% при оценке с помощью набора тестов LibriSpeech.

Для сравнения, коэффициент ошибок распознавания человеком оценивается в 5,83%.

В предложенной модели лучший результат распознавания достигается при чистой записи мужского голоса с американским акцентом в среде без посторонних шумов.

По словам автора библиотеки Vosk Continuous Speech Recognition Library, недостатками набора Common Voice является односторонность речевого материала (преобладание мужчин в возрасте от 20 до 30 лет и отсутствие материала с голосом женщин, детей и т. пожилые люди), отсутствие вариативности словарного запаса (повторение одних и тех же фраз) и распространение MP3-записей, подверженных искажениям.

К недостаткам DeepSpeech можно отнести низкую производительность. и высокое потребление памяти в декодере, а также важные ресурсы для обучения модели (Mozilla использует систему с 8 графическими процессорами Quadro RTX 6000 с 24 ГБ видеопамяти в каждом).

Обратной стороной этого подхода является то, что для качественного распознавания и обучения нейронной сети, движок DeepSpeech требует большого количества данных неоднородность, продиктованная в реальных условиях разными голосами и при наличии естественных шумов.

Эти данные собираются проектом Common Voice, созданным в Mozilla, который предоставляет проверенный набор данных с 1469 часами на английском, 692 на немецком, 554 на французском, 105 часами на русском и 22 часами на украинском.

При обучении итоговой модели английского языка для DeepSpeech, помимо Common Voice, дополнительно используются данные из проектов LibriSpeech, Fisher и Switchboard, а также около 1700 часов записей транскрибированных радиопрограмм.

Между изменениями в новой ветке, выделена возможность форсирования веса слов выбирается в процессе декодирования.

Он также подчеркивает поддержку платформы Electron 9.2 и дополнительную реализацию механизма нормализации уровня (Layer Norm) при обучении нейронной сети.

Скачайте и получите

Производительности достаточно для использования мотора в платах LePotato, Raspberry Pi 3 и Raspberry Pi 4, а также в смартфонах Google Pixel 2, Sony Xperia Z Premium и Nokia 1.3.

Предлагаются готовые модули использовать для Python, NodeJS, C ++ и .NET для интеграции функций распознавания речи в ваши программы (сторонние разработчики имеют отдельно подготовленные модули для Rust, Go и V).


Будьте первым, чтобы комментировать

Оставьте свой комментарий

Ваш электронный адрес не будет опубликован. Обязательные для заполнения поля помечены *

*

*

  1. Ответственный за данные: Мигель Анхель Гатон
  2. Назначение данных: контроль спама, управление комментариями.
  3. Легитимация: ваше согласие
  4. Передача данных: данные не будут переданы третьим лицам, кроме как по закону.
  5. Хранение данных: база данных, размещенная в Occentus Networks (ЕС)
  6. Права: в любое время вы можете ограничить, восстановить и удалить свою информацию.