Мозилла представља ДеепСпеецх 0.9 механизам за препознавање говора

ДеепСпеецх1

Лансирање је објављено механизам за препознавање гласа ДеепСпеецх 0.9 развио Мозилла, који имплементира архитектуру препознавање говора истог имена који су предложили истраживачи Баиду-а.

Имплементација је написан на Питхон-у користећи платформа за машинско учење ТенсорФлов и дистрибуира се под бесплатном лиценцом МПЛ 2.0.

О ДеепСпеецх-у

ДеепСпеецх се састоји од два подсистема: акустични модел и декодер. Акустички модел користи технике дубоког машинског учења за израчунавање вероватноће да су одређени ликови присутни у улазном звуку.

Декодер користи алгоритам претраживања зрака да трансформише податке о вероватноћи знакова у текстуални приказ. ДеепСпеецх је много једноставнији од традиционалних система и истовремено пружа већи квалитет препознавања у присуству страних шума.

Развој не користи традиционалне акустичке моделе и концепт фонема; уместо тога, користи се добро оптимизован систем машинског учења заснован на неуралној мрежи, који елиминише потребу за развојем одвојених компонената за моделирање различитих аномалија као што су шум, ехо и говорне карактеристике.

Кит нуди обучене моделе, узоркује звучне датотеке и алати за препознавање командне линије.

Готов модел испоручује се само на енглеском и кинеском језику. За остале језике систем можете сами научити према приложеним упутствима, користећи гласовне податке прикупљене пројектом Цоммон Воице.

Када користи се модел енглеског језика који се нуди за преузимање, ниво грешака препознавања у ДеепСпеецх-у износи 7.06% када се процењује помоћу ЛибриСпеецх тест пакета.

За поређење, стопа грешке људског препознавања процењује се на 5,83%.

У предложеном моделу најбољи резултат препознавања постиже се чистим снимањем мушког гласа са америчким нагласком у окружењу без туђих звукова.

Према аутору Библиотеке за непрекидно препознавање говора Воск, недостаци скупа Цоммон Воице су једностраност говорног материјала (превладавање мушкараца у 20-им и 30-им годинама и недостатак материјала са гласом жена, деце и старији), недостатак варијабилности речника (понављање истих фраза) и дистрибуција МП3 записа склоних изобличењу.

Мане ДеепСпеецх-а укључују лоше перформансе и велика потрошња меморије у декодеру, као и важни ресурси за обуку модела (Мозилла користи систем са 8 Куадро РТКС 6000 графичких процесора са по 24 ГБ ВРАМ-а).

Лоша страна овог приступа је та за висококвалитетно препознавање и обуку неуронске мреже, мотор ДеепСпеецх захтева велику количину података хетерогено диктирано у стварним условима различитим гласовима и у присуству природних бука.

Ове податке прикупља пројекат Цоммон Воице креиран у Мозилли, који пружа верификовани скуп података са 1469 сати на енглеском, 692 на немачком, 554 на француском, 105 сати на руском и 22 сата на украјинском.

Приликом обуке завршног енглеског модела за ДеепСпеецх, поред Цоммон Воице-а, додатно се користе подаци из пројеката ЛибриСпеецх, Фисхер и Свитцхбоард, као и приближно 1700 сати снимања преписаних радио програма.

Између промена у новој грани, истакнута је могућност форсирања тежине речи изабрани током процеса декодирања.

Такође наглашава подршку за платформу Елецтрон 9.2 и опциону примену механизма за нормализацију слоја (Лаиер Норм) током тренинга неуронске мреже.

Преузмите и набавите

Перформансе су довољне за употребу мотора на плочама ЛеПотато, Распберри Пи 3 и Распберри Пи 4, као и на Гоогле Пикел 2, Сони Кспериа З Премиум и Нокиа 1.3 паметним телефонима.

Готови модули у понуди за употребу за Питхон, НодеЈС, Ц ++ и .НЕТ за интегрисање функција препознавања говора у ваше програме (независни програмери су посебно припремили модуле за Руст, Го и В).


Садржај чланка се придржава наших принципа уређивачка етика. Да бисте пријавили грешку, кликните овде.

Будите први који ће коментарисати

Оставите свој коментар

Ваша емаил адреса неће бити објављена.

*

*

  1. За податке одговоран: Мигуел Ангел Гатон
  2. Сврха података: Контрола нежељене поште, управљање коментарима.
  3. Легитимација: Ваш пристанак
  4. Комуникација података: Подаци се неће преносити трећим лицима, осим по законској обавези.
  5. Похрана података: База података коју хостује Оццентус Нетворкс (ЕУ)
  6. Права: У било ком тренутку можете ограничити, опоравити и избрисати своје податке.