Spustenie bolo zverejnené motor na rozpoznávanie hlasu DeepSpeech 0.9 vyvinutý spoločnosťou Mozilla, ktorá implementuje architektúru servera rozpoznávanie hlasu rovnakého mena, ktorý navrhli vedci z Baidu.
Implementácia je napísaný v Pythone pomocou platforma strojového učenia TensorFlow a je distribuovaný pod bezplatnou licenciou MPL 2.0.
O spoločnosti DeepSpeech
DeepSpeech sa skladá z dvoch subsystémov: akustický model a dekodér. Akustický model využíva techniky hlbokého strojového učenia na výpočet pravdepodobnosti prítomnosti určitých znakov vo vstupnom zvuku.
Dekodér používa algoritmus vyhľadávania lúčov na transformáciu údajov o pravdepodobnosti znakov do textovej podoby. DeepSpeech je oveľa jednoduchší ako tradičné systémy a zároveň poskytuje vyššiu kvalitu rozpoznávania za prítomnosti cudzieho šumu.
Pri vývoji sa nepoužívajú tradičné akustické modely a koncepcia foném; namiesto toho sa používa dobre optimalizovaný systém strojového učenia založený na neurónových sieťach, ktorý eliminuje potrebu vývoja samostatných komponentov na modelovanie rôznych anomálií, ako sú charakteristiky šumu, ozveny a reči.
Súprava ponúka trénované modely, ukážky zvukových súborov a nástroje na rozpoznávanie príkazového riadku.
Hotový model je dodávaný iba pre angličtinu a čínštinu. V ostatných jazykoch sa systém môžete naučiť sami podľa priložených pokynov pomocou hlasových údajov zhromaždených v projekte Common Voice.
Kedy používa sa model anglického jazyka pripravený na použitie ponúkaný na stiahnutie, úroveň chýb rozpoznávania v DeepSpeech je 7.06% pri hodnotení pomocou testovacej sady LibriSpeech.
Pre porovnanie sa miera chyby rozpoznávania človekom odhaduje na 5,83%.
V navrhovanom modeli sa najlepší výsledok rozpoznávania dosiahne čistým záznamom mužského hlasu s americkým prízvukom v prostredí bez cudzích zvukov.
Podľa autora knižnice Vosk Continuous Speech Recognition Library je nevýhodou sady Common Voice jednostrannosť hovoreného materiálu (prevaha mužov vo veku 20 až 30 rokov a nedostatok materiálu s hlasom žien, detí a detí). starší ľudia), chýbajúca variabilita slovnej zásoby (opakovanie rovnakých fráz) a distribúcia MP3 nahrávok náchylných na skreslenie.
Medzi nevýhody DeepSpeech patrí slabý výkon a vysoká spotreba pamäte v dekodéri, ako aj dôležité prostriedky na trénovanie modelu (Mozilla používa systém s 8 grafickými kartami Quadro RTX 6000 s 24 GB VRAM v každej z nich).
Nevýhodou tohto prístupu je, že za vysoko kvalitné rozpoznávanie a výcvik neurónovej siete, motor DeepSpeech vyžaduje veľké množstvo údajov heterogénne diktované v reálnych podmienkach rôznymi hlasmi a za prítomnosti prirodzených zvukov.
Tieto údaje zostavuje projekt Common Voice vytvorený v Mozille, ktorý poskytuje overený súbor údajov s 1469 hodinami v angličtine, 692 v nemčine, 554 vo francúzštine, 105 hodinami v ruštine a 22 hodinami v ukrajinčine.
Pri výcviku finálneho anglického modelu pre DeepSpeech sa okrem programu Common Voice dodatočne používajú aj údaje z projektov LibriSpeech, Fisher a Switchboard, ako aj približne 1700 hodín nahrávok prepisovaných rozhlasových programov.
Medzi zmenami v novej vetve je zvýraznená možnosť vynútiť váhu slov vybrané počas procesu dekódovania.
Zdôrazňuje tiež podporu platformy Electron 9.2 a voliteľnú implementáciu mechanizmu normalizácie vrstiev (Layer Norm) pri výcviku neurónovej siete.
Stiahnite si a získajte
Výkon je dostatočný na použitie motora v doskách LePotato, Raspberry Pi 3 a Raspberry Pi 4, ako aj v smartfónoch Google Pixel 2, Sony Xperia Z Premium a Nokia 1.3.
Pripravené moduly sú ponúkané použiť pre Python, NodeJS, C ++ a .NET na integráciu funkcií rozpoznávania reči do vašich programov (vývojári tretích strán majú samostatne pripravené moduly pre Rust, Go a V).