DeepSpeech: механізм розпізнавання мови Mozilla

DeepSpeech1

Наразі Mozilla не тільки працює над своїм популярним веб-браузером, але також має низку проектів, з яких Сьогодні ми поговоримо про DeepSpeech. Це є механізм розпізнавання мови що реалізує однойменну архітектуру розпізнавання мови, запропоновану дослідниками Baidu.

DeepSpeech виділяється тим, що пропонує різні навчені моделі, зразок аудіофайлів та засоби розпізнавання командного рядка, щоб інтегрувати функцію розпізнавання мови у ваші програми. Для нього готові до використання модулі передбачені для Python, NodeJS, C ++ та .NET, хоча зовнішні розробники також підготували окремі модулі для Rust and Go.

Готова модель постачається лише для англійської мови, але для інших мов, згідно з доданими інструкціями, систему можна навчити, використовуючи голосові дані, зібрані проектом Common Voice.

Про DeepSpeech

DeepSpeech набагато простіший, ніж традиційні системи і в той же час це забезпечує вищу якість розпізнавання за наявності сторонніх шумів.

Розвиток не використовує традиційні акустичні моделі та поняття фонем; натомість, використовувати систему машинного навчання Добре оптимізована нейронна мережа, що позбавляє потреби розробляти окремі компоненти для моделювання різних відхилень, таких як шум, ехо та характеристики мови.

Зворотний бік цього підходу полягає в тому, що для отримання якісного розпізнавання та навчання нейронної мережі, двигуна DeepSpeech вимагає великого обсягу даних неоднорідні, продиктовані в реальних умовах різними голосами та за наявності природного шуму.

Проект Common Voice, створений у Mozilla, відповідає за збір таких даних, забезпечуючи перевірений набір даних: 780 годин англійською, 325 німецькою, 173 французькою та 27 годин російською.

Кінцева мета з проекту Common Voice - це накопичення 10 тисяч годин із записами різних вимов фрази, типові для людської мови, які дозволять досягти прийнятного рівня помилок розпізнавання. У поточній формі учасники проекту вже навчали загалом 4.3 тисячі годин, з яких 3.5 тисячі пройшли тест.

При викладанні остаточної моделі англійської мови для DeepSpeech було використано 3816 годин мови, за винятком Common Voice, який охоплює дані з проектів LibriSpeech, Fisher та Switchboard, а також включає близько 1700 годин транскрибованих записів радіопрограм.

Використовуючи англійську модель, готову до завантаження, рівень помилки розпізнавання в DeepSpeech становить 7,5% при оцінці за допомогою набору тестів LibriSpeech. Для порівняння, рівень помилок у розпізнаванні людей оцінюється у 5.83%.

DeepSpeech складається з двох підсистем: акустичної моделі та декодера. Акустична модель використовує методи глибокого машинного навчання для обчислення ймовірності присутності певних символів у вхідному звуці. Декодер використовує алгоритм променевого пошуку для перетворення даних про ймовірність символів у текстове подання.

Про нову версію DeepSpeech

На даний момент DeepSpeech знаходиться у версії 0.6 в якому виділено такі зміни:

  • Запропоновано новий декодер передачі, який забезпечує більшу швидкість реагування і не залежить від розміру оброблюваних звукових даних.
  • Внесені зміни в API та проведена робота з уніфікації імен функцій. Додані функції для отримання додаткових метаданих про синхронізацію, що дозволяє не тільки отримувати текстове подання у вихідних даних, але й відстежувати прив’язку окремих символів та речень до місця в аудіопотоці.
  • Підтримка використання бібліотеки CuDNN для оптимізації роботи з періодичними нейронними мережами (RNN) була додана до набору інструментів для навчальних модулів.
  • Мінімальні вимоги до версії TensorFlow підвищено з 1.13.1 до 1.14.0.
  • Додана підтримка TensorFlow Lite Light Edition, яка зменшує розмір пакета DeepSpeech з 98 МБ до 3.7 МБ.
  • Мовна модель була перенесена в інший формат структури даних, що дозволяє виділяти файли в пам'ять під час завантаження.
  • Підтримка старішого формату припинена.

Реалізація написана на Python з використанням платформи машинного навчання TensorFlow і поширюється за безкоштовною ліцензією MPL 2.0. Робота Він підтримується в Linux, Android, macOS та Windows. Продуктивність достатня для використання двигуна на платах LePotato, Raspberry Pi 3 і Raspberry Pi 4.


Залиште свій коментар

Ваша електронна адреса не буде опублікований. Обов'язкові для заповнення поля позначені *

*

*

  1. Відповідальний за дані: Мігель Анхель Гатон
  2. Призначення даних: Контроль спаму, управління коментарями.
  3. Легітимація: Ваша згода
  4. Передача даних: Дані не передаватимуться третім особам, за винятком юридичних зобов’язань.
  5. Зберігання даних: База даних, розміщена в мережі Occentus Networks (ЄС)
  6. Права: Ви можете будь-коли обмежити, відновити та видалити свою інформацію.