Mozilla представя DeepSpeech 0.9 Система за разпознаване на реч

DeepSpeech1

Пускането е публикувано двигател за разпознаване на глас DeepSpeech 0.9, разработен от Mozilla, който изпълнява архитектурата на разпознаване на реч със същото име, предложено от изследователите на Baidu.

Прилагането е написана на Python с помощта на платформата за машинно обучение TensorFlow и се разпространява под безплатния лиценз MPL 2.0.

Относно DeepSpeech

DeepSpeech се състои от две подсистеми: акустичен модел и декодер. Акустичният модел използва техники за дълбоко машинно обучение, за да изчисли вероятността някои символи да присъстват във входния звук.

Декодерът използва алгоритъм за търсене на лъчи, за да трансформира данните за вероятността на символите в текстово представяне. DeepSpeech е много по-проста от традиционните системи и в същото време осигурява по-високо качество на разпознаване при наличие на страничен шум.

Разработката не използва традиционни акустични модели и концепцията за фонемите; вместо това се използва добре оптимизирана система за машинно обучение, базирана на невронна мрежа, която премахва необходимостта от разработване на отделни компоненти за моделиране на различни аномалии като шум, ехо и речеви характеристики.

Комплектът предлага обучени модели, примерни звукови файлове и инструменти за разпознаване на команден ред.

Готовият модел се доставя само на английски и китайски. За други езици можете сами да научите системата според приложените инструкции, като използвате гласовите данни, събрани от проекта Common Voice.

Когато използваният готов за употреба модел на английски език, предложен за изтегляне, нивото на грешки при разпознаване в DeepSpeech е 7.06%, когато се оценява с помощта на тестовия пакет LibriSpeech.

За сравнение, степента на грешка при човешкото разпознаване се оценява на 5,83%.

В предложения модел най-добрият резултат от разпознаването се постига с чист запис на мъжки глас с американски акцент в среда без странични шумове.

Според автора на библиотеката за непрекъснато разпознаване на речта Vosk недостатъците на набора Common Voice са едностранчивостта на речевия материал (преобладаването на мъжете на 20 и 30 години и липсата на материал с гласа на жените, децата и възрастни хора), липсата на променливост на речника (повторение на едни и същи фрази) и разпространението на MP3 записи, склонни към изкривяване.

Недостатъците на DeepSpeech включват лоша производителност и високата консумация на памет в декодера, както и важни ресурси за обучение на модела (Mozilla използва система с 8 графични процесора Quadro RTX 6000 с 24GB VRAM във всяка).

Недостатъкът на този подход е това за висококачествено разпознаване и обучение на невронна мрежа, двигателят DeepSpeech изисква голямо количество данни разнородни, продиктувани в реални условия от различни гласове и в присъствието на естествени шумове.

Тези данни се събират от проекта Common Voice, създаден в Mozilla, който осигурява проверен набор от данни с 1469 часа на английски, 692 на немски, 554 на френски, 105 часа на руски и 22 часа на украински.

При обучението на окончателния английски модел за DeepSpeech, в допълнение към Common Voice, допълнително се използват данни от проектите LibriSpeech, Fisher и Switchboard, както и приблизително 1700 часа записани транскрибирани радиопрограми.

Между промените в новия клон, подчертава се възможността за налагане на тежестта на думите избрани по време на процеса на декодиране.

Той също така подчертава поддръжката на платформата Electron 9.2 и незадължително внедряване на механизма за нормализиране на слоя (Layer Norm) при обучение на невронната мрежа.

Изтеглете и вземете

Ефективността е достатъчна за използване на мотора в платките LePotato, Raspberry Pi 3 и Raspberry Pi 4, както и в смартфоните Google Pixel 2, Sony Xperia Z Premium и Nokia 1.3.

Предлагат се готови модули да се използва за Python, NodeJS, C ++ и .NET за интегриране на функции за разпознаване на реч във вашите програми (разработчици на трети страни са подготвили отделно модули за Rust, Go и V).


Оставете вашия коментар

Вашият имейл адрес няма да бъде публикуван. Задължителните полета са отбелязани с *

*

*

  1. Отговорен за данните: Мигел Анхел Гатон
  2. Предназначение на данните: Контрол на СПАМ, управление на коментари.
  3. Легитимация: Вашето съгласие
  4. Съобщаване на данните: Данните няма да бъдат съобщени на трети страни, освен по законово задължение.
  5. Съхранение на данни: База данни, хоствана от Occentus Networks (ЕС)
  6. Права: По всяко време можете да ограничите, възстановите и изтриете информацията си.