Mozilla představuje DeepSpeech 0.9 Speech Recognition Engine

DeepSpeech 1

Spuštění bylo zveřejněno modul rozpoznávání hlasu DeepSpeech 0.9 vyvinutý společností Mozilla, který implementuje architekturu rozpoznávání řeči stejného jména, který navrhli vědci z Baidu.

Implementace je napsán v Pythonu pomocí platforma strojového učení TensorFlow a je distribuován pod bezplatnou licencí MPL 2.0.

O společnosti DeepSpeech

DeepSpeech se skládá ze dvou subsystémů: akustický model a dekodér. Akustický model používá techniky hlubokého strojového učení k výpočtu pravděpodobnosti přítomnosti určitých znaků ve vstupním zvuku.

Dekodér používá algoritmus prohledávání paprsků k transformaci dat pravděpodobnosti znaků do textové reprezentace. DeepSpeech je mnohem jednodušší než tradiční systémy a současně poskytuje vyšší kvalitu rozpoznávání za přítomnosti cizího šumu.

Při vývoji se nepoužívají tradiční akustické modely a koncept fonémů; místo toho se používá dobře optimalizovaný systém strojového učení založený na neuronové síti, který eliminuje potřebu vyvíjet samostatné komponenty pro modelování různých anomálií, jako jsou šum, ozvěna a řečové charakteristiky.

Stavebnice nabízí trénované modely, ukázkové zvukové soubory a nástroje pro rozpoznávání příkazového řádku.

Hotový model je dodáván pouze pro angličtinu a čínštinu. U ostatních jazyků se můžete systém naučit sami podle přiložených pokynů pomocí hlasových dat shromážděných v projektu Common Voice.

Kdy je použit model připravený k použití v anglickém jazyce, který je nabízen ke stažení, úroveň chyb rozpoznávání v DeepSpeech je 7.06% při hodnocení pomocí testovací sady LibriSpeech.

Pro srovnání se odhaduje míra chyb rozpoznávání člověka na 5,83%.

V navrhovaném modelu je nejlepšího výsledku rozpoznávání dosaženo čistým záznamem mužského hlasu s americkým přízvukem v prostředí bez cizích zvuků.

Podle autora knihovny kontinuálního rozpoznávání řeči Vosk jsou nevýhodou sady Common Voice jednostrannost řečového materiálu (převaha mužů ve věku 20 až 30 let a nedostatek materiálu s hlasem žen, dětí a starší lidé), nedostatečná variabilita slovní zásoby (opakování stejných frází) a distribuce nahrávek MP3 náchylných ke zkreslení.

Nevýhody DeepSpeech zahrnují špatný výkon a vysoká spotřeba paměti v dekodéru, stejně jako důležité prostředky pro trénování modelu (Mozilla používá systém s 8 GPU Quadro RTX 6000 s 24GB VRAM v každém z nich).

Nevýhodou tohoto přístupu je to pro vysoce kvalitní rozpoznávání a trénování neuronové sítě, motor DeepSpeech vyžaduje velké množství dat heterogenní diktováno v reálných podmínkách různými hlasy a za přítomnosti přirozených zvuků.

Tato data jsou kompilována projektem Common Voice vytvořeným v Mozille, který poskytuje ověřený datový soubor s 1469 hodinami v angličtině, 692 v němčině, 554 ve francouzštině, 105 hodin v ruštině a 22 hodin v ukrajinštině.

Při tréninku finálního anglického modelu pro DeepSpeech se kromě programu Common Voice navíc používají data z projektů LibriSpeech, Fisher a Switchboard, stejně jako přibližně 1700 hodin nahrávek přepisovaných rozhlasových programů.

Mezi změnami v nové větvi je zvýrazněna možnost vynutit váhu slov během procesu dekódování.

Zdůrazňuje také podporu platformy Electron 9.2 a volitelnou implementaci mechanismu normalizace vrstev (Layer Norm) při trénování neuronové sítě.

Stáhněte si a získejte

Výkon je dostatečný pro použití motoru v deskách LePotato, Raspberry Pi 3 a Raspberry Pi 4, stejně jako ve smartphonech Google Pixel 2, Sony Xperia Z Premium a Nokia 1.3.

Připravené moduly jsou nabízeny použít pro Python, NodeJS, C ++ a .NET k integraci funkcí rozpoznávání řeči do vašich programů (vývojáři třetích stran mají samostatně připravené moduly pro Rust, Go a V).


Zanechte svůj komentář

Vaše e-mailová adresa nebude zveřejněna. Povinné položky jsou označeny *

*

*

  1. Odpovědný za údaje: Miguel Ángel Gatón
  2. Účel údajů: Ovládací SPAM, správa komentářů.
  3. Legitimace: Váš souhlas
  4. Sdělování údajů: Údaje nebudou sděleny třetím osobám, s výjimkou zákonných povinností.
  5. Úložiště dat: Databáze hostovaná společností Occentus Networks (EU)
  6. Práva: Vaše údaje můžete kdykoli omezit, obnovit a odstranit.