Објавили су изворни код Вхиспера, система за аутоматско препознавање говора

шапат

Шапат је аутоматски систем за препознавање говора

Пројекат је недавно ОпенАИ, која развија јавне пројекте у области вештачке интелигенције, је објавио вест везано за систем за препознавање гласа шапутати, који је аутоматски систем за препознавање говора (АСР) обучени за 680.000 сати вишејезичних података са више задатака под надзором прикупљених са веба.

Тврди се да за енглески говор систем обезбеђује нивое поузданости и тачности аутоматског препознавања блиске људском препознавању.

Показујемо да коришћење тако великог и разноликог скупа података доводи до веће отпорности на акценте, позадинску буку и технички језик. Поред тога, омогућава транскрипцију на различите језике, као и превод тих језика на енглески. Ми смо модели отвореног кода и код закључивања који служе као основа за изградњу корисних апликација и за будућа истраживања робусне обраде говора.

О моделу (као што је већ поменуто) обучени користећи 680 сати гласовних података прикупљених из различитих колекција које покривају различите језике и предметне области. Око 1/3 гласовних података укључених у обуку је на језицима који нису енглески.

Предложени систем правилно обрађује ситуације као што је изговор са акцентом, присуство позадинске буке и употреба техничког жаргона. Поред транскрипције говора у текст, систем такође може да преведе говор са произвољног језика на енглески и открије појаву говора у аудио стриму.

Модели се обучавају у две репрезентације: модел за енглески језик и вишејезични модел који подржава шпански, руски, италијански, немачки, јапански, украјински, белоруски, кинески и друге језике. Заузврат, сваки поглед је подељен на 5 опција, које се разликују по величини и броју параметара обухваћених моделом.

Архитектура Вхиспер је једноставан приступ од краја до краја, имплементиран као енкодер-декодер трансформатор. Улазни звук се дели на делове од 30 секунди, претвара у лог-Мел спектрограм, а затим се прослеђује у кодер. Декодер је обучен да предвиди одговарајући текстуални поднаслов, прошаран посебним токенима који усмеравају јединствени модел да изврши задатке као што су идентификација језика, временске ознаке на нивоу реченице, вишејезична транскрипција говора и превод говора на енглески.

Што је већа величина, то је већа тачност и квалитет препознавања, али и већи захтеви за величину ГПУ видео меморије и ниже перформансе. На пример, минимална опција укључује 39 милиона параметара и захтева 1 ГБ видео меморије, док максимална опција укључује 1550 милијарди параметара и захтева 10 ГБ видео меморије. Минимална варијанта је 32 пута бржа од максималне.

Систем користи архитектуру неуронске мреже „Трансформер“, који укључује енкодер и декодер који међусобно делују. Звук је подељен на делове од 30 секунди, који се конвертују у лог-Мел спектрограм и шаљу у кодер.

Резултат рада енкодера се шаље у декодер, који предвиђа приказ текста помешан са посебним токенима који омогућавају решавање задатака као што су откривање језика, хронолошки обрачун изговора реченица, транскрипција говора на различитим језицима и превод на енглески у општем моделу.

Вреди напоменути да перформансе Вхиспер-а доста варирају у зависности од језика, па је онај који представља боље разумевање енглески, који има четири верзије само на енглеском, што, као и други модели других језика, нуди предности и недостатке. брзине и тачности.

Коначно Ако сте заинтересовани да сазнате више о томе, оригиналну публикацију можете проверити у овај линк, док ако сте заинтересовани за изворни код и обучене моделе можете их консултовати на овај линк

Референтни имплементациони код заснован на ПиТорцх оквиру и скупу већ обучених модела су отворени, спремни за употребу. Код је отвореног кода под МИТ лиценцом и вреди напоменути да је неопходна употреба ффмпег библиотеке.


Оставите свој коментар

Ваша емаил адреса неће бити објављена. Обавезна поља су означена са *

*

*

  1. За податке одговоран: Мигуел Ангел Гатон
  2. Сврха података: Контрола нежељене поште, управљање коментарима.
  3. Легитимација: Ваш пристанак
  4. Комуникација података: Подаци се неће преносити трећим лицима, осим по законској обавези.
  5. Похрана података: База података коју хостује Оццентус Нетворкс (ЕУ)
  6. Права: У било ком тренутку можете ограничити, опоравити и избрисати своје податке.