DeepSpeech: Mozilla-ның сөйлеуді тану механизмі

DeepSpeech1

Қазіргі уақытта Mozilla өзінің танымал веб-браузерінде жұмыс істеп қана қоймай, оның қолшатырында әр түрлі жобаларға ие. Бүгін біз DeepSpeech туралы сөйлесеміз. Бұл сөйлеуді тану қозғалтқышы Baidu зерттеушілері ұсынған сөйлеуді танудың омонимдік архитектурасын жүзеге асырады.

DeepSpeech әртүрлі дайындалған модельдерді ұсынумен ерекшеленеді, сөйлеуді тану функциясын бағдарламаларыңызға енгізу үшін аудио файлдар мен командалық жолды тану құралдарының үлгісі. Ол үшін Python, NodeJS, C ++ және .NET үшін пайдалануға дайын модульдер ұсынылған, дегенмен сыртқы әзірлеушілер Rust және Go үшін бөлек модульдер дайындады.

Аяқталған модель тек ағылшын тіліне жеткізіледі, бірақ басқа тілдерге қоса берілген нұсқаулыққа сәйкес, жүйені Common Voice жобасы жинақтаған дауыстық мәліметтерді қолдану арқылы үйретуге болады.

DeepSpeech туралы

DeepSpeech дәстүрлі жүйелерге қарағанда әлдеқайда қарапайым сонымен бірге ол бөгде шу кезінде танудың жоғары сапасын қамтамасыз етеді.

Даму дәстүрлі акустикалық модельдер мен фонемалар тұжырымдамасын қолданбайды; орнына, машиналық оқыту жүйесін қолдану Шу, жаңғырық және сөйлеу сипаттамалары сияқты әр түрлі ауытқуларды модельдеу үшін жеке компоненттерді әзірлеу қажеттілігін жоққа шығаратын жүйке желісі жақсы оңтайландырылған.

Бұл тәсілдің екінші жағы - нейрондық желіні, моторды сапалы тану және үйрету DeepSpeech деректердің үлкен көлемін қажет етеді әр түрлі дауыстармен және табиғи шу кезінде нақты жағдайларда диктенттелген.

Мұндай мәліметтерді жинауға Mozilla-да құрылған «Жалпы дауыс» жобасы жауап береді, дәлелденген мәліметтер жиынтығын ағылшын тілінде 780 сағат, неміс тілінде 325, француз тілінде 173, орыс тілінде 27 сағат құрайды.

Соңғы мақсат Жалпы Дауыс жобасынан бұл әр түрлі айтылған жазулармен 10 мың сағаттың жинақталуы тану кезінде қателіктердің қолайлы деңгейіне жететін адам сөйлеуіне тән сөз тіркестері. Қазіргі формада жобаға қатысушылар жалпы 4.3 мың сағат оқыды, оның 3.5 мыңы тест тапсырды.

DeepSpeech үшін ағылшын тілінің соңғы моделін оқытуда, LibriSpeech, Fisher және Switchboard жобаларының мәліметтерін, сондай-ақ 3816 сағаттық транскрипцияланған радиобағдарламалар жазбаларын қамтитын жалпы дауысты қоспағанда, 1700 сағат сөйлеу қолданылды.

Жүктеуге дайын ағылшын моделін қолданған кезде, DeepSpeech-тегі қателік деңгейі 7,5% құрайды LibriSpeech тест жиынтығымен бағаланған кезде. Салыстыру үшін адамды танудағы қателіктер деңгейі 5.83% -ке бағаланады.

DeepSpeech екі ішкі жүйеден тұрады: акустикалық модель және декодер. Акустикалық модель енгізу дыбысында белгілі бір таңбалардың болу ықтималдығын есептеу үшін машиналық оқытудың терең әдістерін қолданады. Декодер таңбалардың ықтималдығы туралы деректерді мәтіндік көрініске түрлендіру үшін сәулелерді іздеу алгоритмін қолданады.

DeepSpeech жаңа нұсқасы туралы

DeepSpeech қазіргі уақытта 0.6 нұсқасында онда келесі өзгерістер атап көрсетілген:

  • Үлкен жауаптылықты қамтамасыз ететін және өңделген дыбыстық деректердің көлеміне тәуелді емес жаңа трансмиссия декодері ұсынылады.
  • API-ге өзгерістер енгізілді және функциялардың атауларын біріздендіру бойынша жұмыс жүргізілді. Синхрондау туралы қосымша метадеректерді алу үшін функциялар қосылды, бұл тек шығуда мәтіндік көріністі алуға ғана емес, сонымен қатар жеке таңбалар мен сөйлемдердің аудио ағындағы позицияға байланысты болуын қадағалауға мүмкіндік береді.
  • Оқу модульдеріне арналған құралдар жинағына қайталанатын жүйке желілерімен (RNN) жұмысты оңтайландыру үшін CuDNN кітапханасын қолдау қосылды.
  • TensorFlow нұсқасына қойылатын минималды талаптар 1.13.1-ден 1.14.0-ға дейін көтерілді.
  • TensorFlow Lite Light Edition үшін қолдау қосылды, бұл DeepSpeech пакетінің өлшемін 98МБ-дан 3.7МБ-ға дейін төмендетеді.
  • Тілдік модель басқа құрылым құрылымының форматына көшіріліп, файлдарды жүктеу кезінде жадқа бөлуге мүмкіндік береді.
  • Ескі форматты қолдау тоқтатылды.

Іске асыру TensorFlow машинасын оқыту платформасын пайдаланып Python-да жазылған және MPL 2.0 тегін лицензиясы бойынша таратылады. Жұмыс Оған Linux, Android, macOS және Windows жүйелерінде қолдау көрсетіледі. LePotato, Raspberry Pi 3 және Raspberry Pi 4 тақталарында моторды пайдалану үшін жеткілікті өнімділік бар.


Мақаланың мазмұны біздің ұстанымдарымызды ұстанады редакторлық этика. Қате туралы хабарлау үшін нұқыңыз Мұнда.

Бірінші болып пікір айтыңыз

Пікіріңізді қалдырыңыз

Сіздің электрондық пошта мекен-жайы емес жарияланады.

*

*

  1. Деректерге жауапты: Мигель Анхель Гатан
  2. Деректердің мақсаты: СПАМ-ны басқару, түсініктемелерді басқару.
  3. Заңдылық: Сіздің келісіміңіз
  4. Деректер туралы ақпарат: заңды міндеттемелерді қоспағанда, деректер үшінші тұлғаларға жіберілмейді.
  5. Деректерді сақтау: Occentus Networks (ЕО) орналастырған мәліметтер базасы
  6. Құқықтар: Сіз кез-келген уақытта ақпаратты шектей, қалпына келтіре және жоя аласыз.

bool(шын)