Mozilla прадстаўляе DeepSpeech 0.9 Engine Recognition Engine

Глыбокая гаворка1

Запуск апублікаваны рухавік распазнавання галасы DeepSpeech 0.9, распрацаваны Mozilla, які рэалізуе архітэктуру распазнаванне прамовы аднайменная прапанаваная даследчыкамі Baidu.

Рэалізацыя напісана на Python з выкарыстаннем платформа машыннага навучання TensorFlow і распаўсюджваецца пад бясплатнай ліцэнзіяй MPL 2.0.

Аб DeepSpeech

DeepSpeech складаецца з дзвюх падсістэм: акустычная мадэль і дэкодэр. Акустычная мадэль выкарыстоўвае метады глыбокага машыннага навучання для разліку верагоднасці наяўнасці пэўных сімвалаў ва ўваходным гуку.

Дэкодэр выкарыстоўвае алгарытм прамянёвага пошуку для пераўтварэння дадзеных пра верагоднасць сімвалаў у тэкставае ўяўленне. DeepSpeech значна прасцей, чым традыцыйныя сістэмы, і ў той жа час забяспечвае больш высокую якасць распазнавання пры наяўнасці старонніх шумоў.

У распрацоўцы не выкарыстоўваюцца традыцыйныя акустычныя мадэлі і канцэпцыя фанем; замест гэтага выкарыстоўваецца добра аптымізаваная сістэма машыннага навучання на аснове нейронных сетак, што пазбаўляе ад неабходнасці распрацоўваць асобныя кампаненты для мадэлявання розных анамалій, такіх як шум, рэха і маўленчыя характарыстыкі.

У камплект прапануе навучаныя мадэлі, узор гукавых файлаў і інструменты распазнавання каманднага радка.

Гатовая мадэль пастаўляецца толькі на англійскай і кітайскай мовах. Для іншых моў вы можаце вывучыць сістэму самастойна ў адпаведнасці з прыкладзенымі інструкцыямі, выкарыстоўваючы галасавыя дадзеныя, сабраныя праектам Common Voice.

Калі выкарыстоўваецца гатовая да выкарыстання мадэль англійскай мовы, якая прапануецца для загрузкі, узровень памылак распазнавання ў DeepSpeech складае 7.06% пры ацэнцы з выкарыстаннем набору тэстаў LibriSpeech.

Для параўнання, узровень памылак распазнавання чалавека ацэньваецца ў 5,83%.

У прапанаванай мадэлі лепшы вынік распазнавання дасягаецца чыстай запісам мужчынскага голасу з амерыканскім акцэнтам у асяроддзі без старонніх шумоў.

Па словах аўтара Бібліятэкі распазнавання бесперапыннай прамовы Воска, недахопамі набору Common Voice з'яўляецца аднабаковасць маўленчага матэрыялу (перавага мужчын ва ўзросце ад 20 да 30 і адсутнасць матэрыялу з голасам жанчын, дзяцей і пажылыя людзі), адсутнасць зменлівасці слоўнікавага запасу (паўтарэнне адных і тых жа фраз) і распаўсюджванне запісаў MP3, схільных да скажэнняў.

Да недахопаў DeepSpeech адносяць дрэнную прадукцыйнасць і высокае спажыванне памяці дэкодэрам, а таксама важныя рэсурсы для навучання мадэлі (Mozilla выкарыстоўвае сістэму з 8 графічнымі працэсарамі Quadro RTX 6000 з 24 ГБ VRAM у кожным).

Недахопам гэтага падыходу з'яўляецца тое для якаснага распазнання і навучання нейроннай сеткі, рухавік DeepSpeech патрабуецца вялікая колькасць дадзеных неаднастайныя, якія дыктуюцца ў рэальных умовах рознымі галасамі і пры наяўнасці натуральных шумоў.

Гэтыя дадзеныя сабраны ў рамках праекта Common Voice, створанага ў Mozilla, які забяспечвае правераны набор дадзеных: 1469 гадзін на англійскай, 692 на нямецкай, 554 на французскай, 105 гадзін на рускай і 22 гадзіны на ўкраінскай.

Пры навучанні фінальнай англійскай мадэлі для DeepSpeech, акрамя Common Voice, дадаткова выкарыстоўваюцца дадзеныя з праектаў LibriSpeech, Fisher і Switchboard, а таксама каля 1700 гадзін запісаў транскрыбаваных радыёпраграм.

Паміж зменамі ў новым аддзяленні, выдзелена магчымасць прымусу да вагі слоў выбраны ў працэсе дэкадавання.

Падтрымка платформы Electron 9.2 і дадатковая рэалізацыя механізму нармалізацыі пласта (Layer Norm) пры навучанні нейроннай сеткі таксама вылучаецца.

Спампаваць і атрымаць

Прадукцыйнасць дастатковая для выкарыстання рухавіка ў платах LePotato, Raspberry Pi 3 і Raspberry Pi 4, а таксама ў смартфонах Google Pixel 2, Sony Xperia Z Premium і Nokia 1.3.

Прапануюцца гатовыя модулі выкарыстоўваць для Python, NodeJS, C ++ і .NET для інтэграцыі функцый распазнання прамовы ў вашыя праграмы (незалежныя распрацоўшчыкі асобна падрыхтавалі модулі для Rust, Go і V).


Змест артыкула адпавядае нашым прынцыпам рэдакцыйная этыка. Каб паведаміць пра памылку, націсніце тут.

Будзьце першым, каб каментаваць

Пакіньце свой каментар

Ваш электронны адрас не будзе апублікаваны. Абавязковыя для запаўнення палі пазначаныя *

*

*

  1. Адказны за дадзеныя: Мігель Анхель Гатон
  2. Прызначэнне дадзеных: Кантроль спаму, кіраванне каментарыямі.
  3. Легітымнасць: ваша згода
  4. Перадача дадзеных: Дадзеныя не будуць перададзены трэцім асобам, за выключэннем юрыдычных абавязкаў.
  5. Захоўванне дадзеных: База дадзеных, размешчаная Occentus Networks (ЕС)
  6. Правы: у любы час вы можаце абмежаваць, аднавіць і выдаліць сваю інфармацыю.