Mozilla presenta el motor de reconocimiento de voz DeepSpeech 0.9

Spuštění bylo zveřejněno modul rozpoznávání hlasu DeepSpeech 0.9 vyvinutý společností Mozilla, který implementuje architekturu rozpoznávání řeči stejného jména, který navrhli vědci z Baidu.

Implementace je napsán v Pythonu pomocí platforma strojového učení TensorFlow a je distribuován pod bezplatnou licencí MPL 2.0.

O společnosti DeepSpeech

DeepSpeech se skládá ze dvou subsystémů: akustický model a dekodér. Akustický model používá techniky hlubokého strojového učení k výpočtu pravděpodobnosti přítomnosti určitých znaků ve vstupním zvuku.

Dekodér používá algoritmus prohledávání paprsků k transformaci dat pravděpodobnosti znaků do textové reprezentace. DeepSpeech je mnohem jednodušší než tradiční systémy a současně poskytuje vyšší kvalitu rozpoznávání za přítomnosti cizího šumu.

Při vývoji se nepoužívají tradiční akustické modely a koncept fonémů; místo toho se používá dobře optimalizovaný systém strojového učení založený na neuronové síti, který eliminuje potřebu vyvíjet samostatné komponenty pro modelování různých anomálií, jako jsou šum, ozvěna a řečové charakteristiky.

Stavebnice nabízí trénované modely, ukázkové zvukové soubory a nástroje pro rozpoznávání příkazového řádku.

Hotový model je dodáván pouze pro angličtinu a čínštinu. U ostatních jazyků se můžete systém naučit sami podle přiložených pokynů pomocí hlasových dat shromážděných v projektu Common Voice.

Kdy je použit model připravený k použití v anglickém jazyce, který je nabízen ke stažení, úroveň chyb rozpoznávání v DeepSpeech je 7.06% při hodnocení pomocí testovací sady LibriSpeech.

Pro srovnání se odhaduje míra chyb rozpoznávání člověka na 5,83%.

V navrhovaném modelu je nejlepšího výsledku rozpoznávání dosaženo čistým záznamem mužského hlasu s americkým přízvukem v prostředí bez cizích zvuků.

Podle autora knihovny kontinuálního rozpoznávání řeči Vosk jsou nevýhodou sady Common Voice jednostrannost řečového materiálu (převaha mužů ve věku 20 až 30 let a nedostatek materiálu s hlasem žen, dětí a starší lidé), nedostatečná variabilita slovní zásoby (opakování stejných frází) a distribuce nahrávek MP3 náchylných ke zkreslení.

Nevýhody DeepSpeech zahrnují špatný výkon a vysoká spotřeba paměti v dekodéru, stejně jako důležité prostředky pro trénování modelu (Mozilla používá systém s 8 GPU Quadro RTX 6000 s 24GB VRAM v každém z nich).

Nevýhodou tohoto přístupu je to pro vysoce kvalitní rozpoznávání a trénování neuronové sítě, motor DeepSpeech vyžaduje velké množství dat heterogenní diktováno v reálných podmínkách různými hlasy a za přítomnosti přirozených zvuků.

Tato data jsou kompilována projektem Common Voice vytvořeným v Mozille, který poskytuje ověřený datový soubor s 1469 hodinami v angličtině, 692 v němčině, 554 ve francouzštině, 105 hodin v ruštině a 22 hodin v ukrajinštině.

Při tréninku finálního anglického modelu pro DeepSpeech se kromě programu Common Voice navíc používají data z projektů LibriSpeech, Fisher a Switchboard, stejně jako přibližně 1700 hodin nahrávek přepisovaných rozhlasových programů.

Mezi změnami v nové větvi je zvýrazněna možnost vynutit váhu slov během procesu dekódování.

Zdůrazňuje také podporu platformy Electron 9.2 a volitelnou implementaci mechanismu normalizace vrstev (Layer Norm) při trénování neuronové sítě.

Stáhněte si a získejte

Výkon je dostatečný pro použití motoru v deskách LePotato, Raspberry Pi 3 a Raspberry Pi 4, stejně jako ve smartphonech Google Pixel 2, Sony Xperia Z Premium a Nokia 1.3.

Připravené moduly jsou nabízeny použít pro Python, NodeJS, C ++ a .NET k integraci funkcí rozpoznávání řeči do vašich programů (vývojáři třetích stran mají samostatně připravené moduly pro Rust, Go a V).

DesdeLinux

Mozilla představuje DeepSpeech 0.9 Speech Recognition Engine

O společnosti DeepSpeech

Stáhněte si a získejte

Zanechte svůj komentář Zrušit odpověď