Mozilla predstavuje DeepSpeech 0.9 Speech Recognition Engine

Hlboká reč 1

Spustenie bolo zverejnené motor na rozpoznávanie hlasu DeepSpeech 0.9 vyvinutý spoločnosťou Mozilla, ktorá implementuje architektúru servera rozpoznávanie hlasu rovnakého mena, ktorý navrhli vedci z Baidu.

Implementácia je napísaný v Pythone pomocou platforma strojového učenia TensorFlow a je distribuovaný pod bezplatnou licenciou MPL 2.0.

O spoločnosti DeepSpeech

DeepSpeech sa skladá z dvoch subsystémov: akustický model a dekodér. Akustický model využíva techniky hlbokého strojového učenia na výpočet pravdepodobnosti prítomnosti určitých znakov vo vstupnom zvuku.

Dekodér používa algoritmus vyhľadávania lúčov na transformáciu údajov o pravdepodobnosti znakov do textovej podoby. DeepSpeech je oveľa jednoduchší ako tradičné systémy a zároveň poskytuje vyššiu kvalitu rozpoznávania za prítomnosti cudzieho šumu.

Pri vývoji sa nepoužívajú tradičné akustické modely a koncepcia foném; namiesto toho sa používa dobre optimalizovaný systém strojového učenia založený na neurónových sieťach, ktorý eliminuje potrebu vývoja samostatných komponentov na modelovanie rôznych anomálií, ako sú charakteristiky šumu, ozveny a reči.

Súprava ponúka trénované modely, ukážky zvukových súborov a nástroje na rozpoznávanie príkazového riadku.

Hotový model je dodávaný iba pre angličtinu a čínštinu. V ostatných jazykoch sa systém môžete naučiť sami podľa priložených pokynov pomocou hlasových údajov zhromaždených v projekte Common Voice.

Kedy používa sa model anglického jazyka pripravený na použitie ponúkaný na stiahnutie, úroveň chýb rozpoznávania v DeepSpeech je 7.06% pri hodnotení pomocou testovacej sady LibriSpeech.

Pre porovnanie sa miera chyby rozpoznávania človekom odhaduje na 5,83%.

V navrhovanom modeli sa najlepší výsledok rozpoznávania dosiahne čistým záznamom mužského hlasu s americkým prízvukom v prostredí bez cudzích zvukov.

Podľa autora knižnice Vosk Continuous Speech Recognition Library je nevýhodou sady Common Voice jednostrannosť hovoreného materiálu (prevaha mužov vo veku 20 až 30 rokov a nedostatok materiálu s hlasom žien, detí a detí). starší ľudia), chýbajúca variabilita slovnej zásoby (opakovanie rovnakých fráz) a distribúcia MP3 nahrávok náchylných na skreslenie.

Medzi nevýhody DeepSpeech patrí slabý výkon a vysoká spotreba pamäte v dekodéri, ako aj dôležité prostriedky na trénovanie modelu (Mozilla používa systém s 8 grafickými kartami Quadro RTX 6000 s 24 GB VRAM v každej z nich).

Nevýhodou tohto prístupu je, že za vysoko kvalitné rozpoznávanie a výcvik neurónovej siete, motor DeepSpeech vyžaduje veľké množstvo údajov heterogénne diktované v reálnych podmienkach rôznymi hlasmi a za prítomnosti prirodzených zvukov.

Tieto údaje zostavuje projekt Common Voice vytvorený v Mozille, ktorý poskytuje overený súbor údajov s 1469 hodinami v angličtine, 692 v nemčine, 554 vo francúzštine, 105 hodinami v ruštine a 22 hodinami v ukrajinčine.

Pri výcviku finálneho anglického modelu pre DeepSpeech sa okrem programu Common Voice dodatočne používajú aj údaje z projektov LibriSpeech, Fisher a Switchboard, ako aj približne 1700 hodín nahrávok prepisovaných rozhlasových programov.

Medzi zmenami v novej vetve je zvýraznená možnosť vynútiť váhu slov vybrané počas procesu dekódovania.

Zdôrazňuje tiež podporu platformy Electron 9.2 a voliteľnú implementáciu mechanizmu normalizácie vrstiev (Layer Norm) pri výcviku neurónovej siete.

Stiahnite si a získajte

Výkon je dostatočný na použitie motora v doskách LePotato, Raspberry Pi 3 a Raspberry Pi 4, ako aj v smartfónoch Google Pixel 2, Sony Xperia Z Premium a Nokia 1.3.

Pripravené moduly sú ponúkané použiť pre Python, NodeJS, C ++ a .NET na integráciu funkcií rozpoznávania reči do vašich programov (vývojári tretích strán majú samostatne pripravené moduly pre Rust, Go a V).


Zanechajte svoj komentár

Vaša e-mailová adresa nebude zverejnená. Povinné položky sú označené *

*

*

  1. Zodpovedný za údaje: Miguel Ángel Gatón
  2. Účel údajov: Kontrolný SPAM, správa komentárov.
  3. Legitimácia: Váš súhlas
  4. Oznamovanie údajov: Údaje nebudú poskytnuté tretím stranám, iba ak to vyplýva zo zákona.
  5. Ukladanie dát: Databáza hostená spoločnosťou Occentus Networks (EU)
  6. Práva: Svoje údaje môžete kedykoľvek obmedziť, obnoviť a vymazať.