Spuštění bylo zveřejněno modul rozpoznávání hlasu DeepSpeech 0.9 vyvinutý společností Mozilla, který implementuje architekturu rozpoznávání řeči stejného jména, který navrhli vědci z Baidu.
Implementace je napsán v Pythonu pomocí platforma strojového učení TensorFlow a je distribuován pod bezplatnou licencí MPL 2.0.
O společnosti DeepSpeech
DeepSpeech se skládá ze dvou subsystémů: akustický model a dekodér. Akustický model používá techniky hlubokého strojového učení k výpočtu pravděpodobnosti přítomnosti určitých znaků ve vstupním zvuku.
Dekodér používá algoritmus prohledávání paprsků k transformaci dat pravděpodobnosti znaků do textové reprezentace. DeepSpeech je mnohem jednodušší než tradiční systémy a současně poskytuje vyšší kvalitu rozpoznávání za přítomnosti cizího šumu.
Při vývoji se nepoužívají tradiční akustické modely a koncept fonémů; místo toho se používá dobře optimalizovaný systém strojového učení založený na neuronové síti, který eliminuje potřebu vyvíjet samostatné komponenty pro modelování různých anomálií, jako jsou šum, ozvěna a řečové charakteristiky.
Stavebnice nabízí trénované modely, ukázkové zvukové soubory a nástroje pro rozpoznávání příkazového řádku.
Hotový model je dodáván pouze pro angličtinu a čínštinu. U ostatních jazyků se můžete systém naučit sami podle přiložených pokynů pomocí hlasových dat shromážděných v projektu Common Voice.
Kdy je použit model připravený k použití v anglickém jazyce, který je nabízen ke stažení, úroveň chyb rozpoznávání v DeepSpeech je 7.06% při hodnocení pomocí testovací sady LibriSpeech.
Pro srovnání se odhaduje míra chyb rozpoznávání člověka na 5,83%.
V navrhovaném modelu je nejlepšího výsledku rozpoznávání dosaženo čistým záznamem mužského hlasu s americkým přízvukem v prostředí bez cizích zvuků.
Podle autora knihovny kontinuálního rozpoznávání řeči Vosk jsou nevýhodou sady Common Voice jednostrannost řečového materiálu (převaha mužů ve věku 20 až 30 let a nedostatek materiálu s hlasem žen, dětí a starší lidé), nedostatečná variabilita slovní zásoby (opakování stejných frází) a distribuce nahrávek MP3 náchylných ke zkreslení.
Nevýhody DeepSpeech zahrnují špatný výkon a vysoká spotřeba paměti v dekodéru, stejně jako důležité prostředky pro trénování modelu (Mozilla používá systém s 8 GPU Quadro RTX 6000 s 24GB VRAM v každém z nich).
Nevýhodou tohoto přístupu je to pro vysoce kvalitní rozpoznávání a trénování neuronové sítě, motor DeepSpeech vyžaduje velké množství dat heterogenní diktováno v reálných podmínkách různými hlasy a za přítomnosti přirozených zvuků.
Tato data jsou kompilována projektem Common Voice vytvořeným v Mozille, který poskytuje ověřený datový soubor s 1469 hodinami v angličtině, 692 v němčině, 554 ve francouzštině, 105 hodin v ruštině a 22 hodin v ukrajinštině.
Při tréninku finálního anglického modelu pro DeepSpeech se kromě programu Common Voice navíc používají data z projektů LibriSpeech, Fisher a Switchboard, stejně jako přibližně 1700 hodin nahrávek přepisovaných rozhlasových programů.
Mezi změnami v nové větvi je zvýrazněna možnost vynutit váhu slov během procesu dekódování.
Zdůrazňuje také podporu platformy Electron 9.2 a volitelnou implementaci mechanismu normalizace vrstev (Layer Norm) při trénování neuronové sítě.
Stáhněte si a získejte
Výkon je dostatečný pro použití motoru v deskách LePotato, Raspberry Pi 3 a Raspberry Pi 4, stejně jako ve smartphonech Google Pixel 2, Sony Xperia Z Premium a Nokia 1.3.
Připravené moduly jsou nabízeny použít pro Python, NodeJS, C ++ a .NET k integraci funkcí rozpoznávání řeči do vašich programů (vývojáři třetích stran mají samostatně připravené moduly pro Rust, Go a V).