Mozilla predstavuje nástroj na rozpoznávanie reči DeepSpeech 0.9

Spustenie bolo zverejnené motor na rozpoznávanie hlasu DeepSpeech 0.9 vyvinutý spoločnosťou Mozilla, ktorá implementuje architektúru servera rozpoznávanie hlasu rovnakého mena, ktorý navrhli vedci z Baidu.

Implementácia je napísaný v Pythone pomocou platforma strojového učenia TensorFlow a je distribuovaný pod bezplatnou licenciou MPL 2.0.

O spoločnosti DeepSpeech

DeepSpeech sa skladá z dvoch subsystémov: akustický model a dekodér. Akustický model využíva techniky hlbokého strojového učenia na výpočet pravdepodobnosti prítomnosti určitých znakov vo vstupnom zvuku.

Dekodér používa algoritmus vyhľadávania lúčov na transformáciu údajov o pravdepodobnosti znakov do textovej podoby. DeepSpeech je oveľa jednoduchší ako tradičné systémy a zároveň poskytuje vyššiu kvalitu rozpoznávania za prítomnosti cudzieho šumu.

Pri vývoji sa nepoužívajú tradičné akustické modely a koncepcia foném; namiesto toho sa používa dobre optimalizovaný systém strojového učenia založený na neurónových sieťach, ktorý eliminuje potrebu vývoja samostatných komponentov na modelovanie rôznych anomálií, ako sú charakteristiky šumu, ozveny a reči.

Súprava ponúka trénované modely, ukážky zvukových súborov a nástroje na rozpoznávanie príkazového riadku.

Hotový model je dodávaný iba pre angličtinu a čínštinu. V ostatných jazykoch sa systém môžete naučiť sami podľa priložených pokynov pomocou hlasových údajov zhromaždených v projekte Common Voice.

Kedy používa sa model anglického jazyka pripravený na použitie ponúkaný na stiahnutie, úroveň chýb rozpoznávania v DeepSpeech je 7.06% pri hodnotení pomocou testovacej sady LibriSpeech.

Pre porovnanie sa miera chyby rozpoznávania človekom odhaduje na 5,83%.

V navrhovanom modeli sa najlepší výsledok rozpoznávania dosiahne čistým záznamom mužského hlasu s americkým prízvukom v prostredí bez cudzích zvukov.

Podľa autora knižnice Vosk Continuous Speech Recognition Library je nevýhodou sady Common Voice jednostrannosť hovoreného materiálu (prevaha mužov vo veku 20 až 30 rokov a nedostatok materiálu s hlasom žien, detí a detí). starší ľudia), chýbajúca variabilita slovnej zásoby (opakovanie rovnakých fráz) a distribúcia MP3 nahrávok náchylných na skreslenie.

Medzi nevýhody DeepSpeech patrí slabý výkon a vysoká spotreba pamäte v dekodéri, ako aj dôležité prostriedky na trénovanie modelu (Mozilla používa systém s 8 grafickými kartami Quadro RTX 6000 s 24 GB VRAM v každej z nich).

Nevýhodou tohto prístupu je, že za vysoko kvalitné rozpoznávanie a výcvik neurónovej siete, motor DeepSpeech vyžaduje veľké množstvo údajov heterogénne diktované v reálnych podmienkach rôznymi hlasmi a za prítomnosti prirodzených zvukov.

Tieto údaje zostavuje projekt Common Voice vytvorený v Mozille, ktorý poskytuje overený súbor údajov s 1469 hodinami v angličtine, 692 v nemčine, 554 vo francúzštine, 105 hodinami v ruštine a 22 hodinami v ukrajinčine.

Pri výcviku finálneho anglického modelu pre DeepSpeech sa okrem programu Common Voice dodatočne používajú aj údaje z projektov LibriSpeech, Fisher a Switchboard, ako aj približne 1700 hodín nahrávok prepisovaných rozhlasových programov.

Medzi zmenami v novej vetve je zvýraznená možnosť vynútiť váhu slov vybrané počas procesu dekódovania.

Zdôrazňuje tiež podporu platformy Electron 9.2 a voliteľnú implementáciu mechanizmu normalizácie vrstiev (Layer Norm) pri výcviku neurónovej siete.

Stiahnite si a získajte

Výkon je dostatočný na použitie motora v doskách LePotato, Raspberry Pi 3 a Raspberry Pi 4, ako aj v smartfónoch Google Pixel 2, Sony Xperia Z Premium a Nokia 1.3.

Pripravené moduly sú ponúkané použiť pre Python, NodeJS, C ++ a .NET na integráciu funkcií rozpoznávania reči do vašich programov (vývojári tretích strán majú samostatne pripravené moduly pre Rust, Go a V).

DesdeLinux

Mozilla predstavuje DeepSpeech 0.9 Speech Recognition Engine

O spoločnosti DeepSpeech

Stiahnite si a získajte

Zanechajte svoj komentár Zrušiť odpoveď