Mozilla presenta el motor de reconocimiento de voz DeepSpeech 0.9

Запуск опубліковано механізм розпізнавання голосу - DeepSpeech 0.9, розроблений Mozilla, що реалізує архітектуру розпізнавання мови однойменний, запропонований дослідниками Байду.

Впровадження написано на Python з використанням платформа машинного навчання TensorFlow і поширюється за безкоштовною ліцензією MPL 2.0.

Про DeepSpeech

DeepSpeech складається з двох підсистем: акустична модель та декодер. Акустична модель використовує методи глибокого машинного навчання для обчислення ймовірності присутності певних символів у вхідному звуці.

Декодер використовує алгоритм пошуку променя для перетворення даних про ймовірність символів у текстове представлення. DeepSpeech набагато простіший, ніж традиційні системи, і в той же час забезпечує вищу якість розпізнавання за наявності сторонніх шумів.

У розробці не використовуються традиційні акустичні моделі та концепція фонем; натомість використовується добре оптимізована система машинного навчання на основі нейронних мереж, що позбавляє потреби розробляти окремі компоненти для моделювання різних аномалій, таких як шум, ехо та мовні характеристики.

Комплект пропонує навчені моделі, зразки звукових файлів та засоби розпізнавання командного рядка.

Готова модель постачається лише англійською та китайською мовами. Для інших мов ви можете вивчити систему самостійно відповідно до доданих інструкцій, використовуючи голосові дані, зібрані проектом Common Voice.

Коли використовується готова до використання модель англійської мови, запропонована для завантаження, рівень помилок розпізнавання в DeepSpeech становить 7.06% при оцінці за допомогою набору тестів LibriSpeech.

Для порівняння, коефіцієнт помилок розпізнавання людини оцінюється у 5,83%.

У запропонованій моделі найкращий результат розпізнавання досягається чистим записом чоловічого голосу з американським акцентом в середовищі без сторонніх шумів.

На думку автора бібліотеки безперервного розпізнавання мовлення «Воск», недоліками набору «Спільний голос» є однобічність мовного матеріалу (переважання чоловіків у 20-30-ті роки та відсутність матеріалу з голосом жінок, дітей та дітей). люди похилого віку), відсутність варіативної лексики (повторення тих самих фраз) та розповсюдження записів MP3, схильних до спотворень.

До недоліків DeepSpeech можна віднести низьку продуктивність і велике споживання пам'яті в декодері, а також важливі ресурси для навчання моделі (Mozilla використовує систему з 8 графічними процесорами Quadro RTX 6000 з 24 ГБ VRAM в кожному).

Недоліком такого підходу є те для якісного розпізнавання та навчання нейронної мережі, двигун DeepSpeech вимагає великого обсягу даних неоднорідні, продиктовані в реальних умовах різними голосами та за наявності природних шумів.

Ці дані зібрані в рамках проекту Common Voice, створеного в Mozilla, який забезпечує перевірений набір даних: 1469 годин англійською, 692 німецькою, 554 французькою, 105 годин російською та 22 години українською.

При навчанні остаточної англійської моделі для DeepSpeech, крім Common Voice, додатково використовуються дані з проектів LibriSpeech, Fisher та Switchboard, а також приблизно 1700 годин записів транскрибованих радіопрограм.

Між змінами в новій гілці, підкреслено можливість форсування ваги слів обраний під час процесу декодування.

Він також підкреслює підтримку платформи Electron 9.2 та необов’язкову реалізацію механізму нормалізації рівня (Норма рівня) під час навчання нейронної мережі.

Завантажте та отримайте

Продуктивність достатня для використання двигуна в платах LePotato, Raspberry Pi 3 та Raspberry Pi 4, а також у смартфонах Google Pixel 2, Sony Xperia Z Premium та Nokia 1.3.

Пропонуються готові модулі використовувати для Python, NodeJS, C ++ та .NET для інтеграції функцій розпізнавання мовлення у ваші програми (сторонні розробники окремо підготували модулі для Rust, Go та V).

Залиште свій коментар Скасувати відповідь

Ваша електронна адреса не буде опублікований. Обов'язкові для заповнення поля позначені *

коментар *

Ім'я*

електронна пошта*

Я приймаю умови конфіденційності*

Відповідальний за дані: Мігель Анхель Гатон
Призначення даних: Контроль спаму, управління коментарями.
Легітимація: Ваша згода
Передача даних: Дані не передаватимуться третім особам, за винятком юридичних зобов’язань.
Зберігання даних: База даних, розміщена в мережі Occentus Networks (ЄС)
Права: Ви можете будь-коли обмежити, відновити та видалити свою інформацію.

Я хочу отримувати бюлетень

DesdeLinux

Mozilla представляє DeepSpeech 0.9 Система розпізнавання мови

Про DeepSpeech

Завантажте та отримайте

Залиште свій коментар Скасувати відповідь