DeepSpeech: Mozillin motor za prepoznavanje govora

DeepSpeech1

Trenutno Mozilla ne deluje le v svojem priljubljenem spletnem brskalniku, temveč ima pod svojim okriljem tudi številne projekte, od tega Danes bomo govorili o DeepSpeechu. To je mehanizem za prepoznavanje govora ki izvaja istoimensko arhitekturo za prepoznavanje govora, ki so jo predlagali raziskovalci iz Baiduja.

DeepSpeech izstopa s ponudbo različnih usposobljenih modelov, vzorčite zvočne datoteke in orodja za prepoznavanje ukazne vrstice, da v svoje programe vključite funkcijo prepoznavanja govora. Za to na voljo so pripravljeni moduli za Python, NodeJS, C ++ in .NET, čeprav so zunanji razvijalci pripravili tudi ločene module za Rust and Go.

Končni model je dostavljen samo za angleški jezik, za druge jezike pa je v skladu s priloženimi navodili sistem mogoče usposobiti z uporabo glasovnih podatkov, zbranih v projektu Common Voice.

O DeepSpeechu

DeepSpeech je veliko preprostejši od tradicionalnih sistemov hkrati pa zagotavlja višjo kakovost prepoznavanja ob prisotnosti tujega hrupa.

Razvoj ne uporablja tradicionalnih akustičnih modelov in koncepta fonemov; namesto tega uporabite sistem strojnega učenja Dobro optimizirana nevronska mreža, ki odpravlja potrebo po razvoju ločenih komponent za modeliranje različnih odstopanj, kot so značilnosti šuma, odmeva in govora.

Druga stran tega pristopa je, da za visokokakovostno prepoznavanje in usposabljanje nevronske mreže, motorja DeepSpeech zahteva veliko količino podatkov heterogeno, ki ga v resničnih razmerah narekujejo različni glasovi in ​​ob prisotnosti naravnega hrupa.

Projekt Common Voice, ustvarjen v Mozilli, je odgovoren za zbiranje takšnih podatkov in zagotavlja preverjen nabor podatkov s 780 urami v angleščini, 325 v nemščini, 173 v francoščini in 27 ur v ruščini.

Končni cilj iz projekta Common Voice je kopičenje 10 tisoč ur s posnetki različnih izgovorov besedne zveze, značilne za človeški govor, ki bodo dosegle sprejemljivo raven napak pri prepoznavanju. V sedanji obliki so udeleženci projekta skupaj poučili že 4.3 tisoč ur, od tega 3.5 tisoč opravljenih preizkusov.

Pri poučevanju končnega angleškega modela za DeepSpeech je bilo uporabljenih 3816 ur govora, razen Common Voice, ki zajema projektne podatke iz LibriSpeech, Fisher in Switchboard ter vključuje okoli 1700 ur prepisanih posnetkov radijskih programov.

Ko uporabljate angleški model, pripravljen za prenos, stopnja napake pri prepoznavanju v DeepSpeechu je 7,5% pri vrednotenju s testnim paketom LibriSpeech. Za primerjavo je stopnja napak pri človeškem prepoznavanju ocenjena na 5.83%.

DeepSpeech je sestavljen iz dveh podsistemov: zvočnega modela in dekoderja. Akustični model uporablja metode globokega strojnega učenja za izračun verjetnosti prisotnosti določenih znakov v vhodnem zvoku. Dekoder z algoritmom za iskanje z žarki pretvori podatke o verjetnosti znakov v besedilno predstavitev.

O novi različici DeepSpeech

DeepSpeech je trenutno v različici 0.6 v katerem so poudarjene naslednje spremembe:

  • Predlagan je nov dekodirnik prenosa, ki zagotavlja večjo odzivnost in ni odvisen od velikosti obdelanih zvočnih podatkov.
  • Spremenjene so bile API-je in opravljeno je bilo delo za poenotenje imen funkcij. Dodane so funkcije za pridobivanje dodatnih metapodatkov o časovnem okviru, ki omogočajo ne samo prejemanje besedilne predstavitve v izhodu, temveč tudi sledenje vezavi posameznih znakov in stavkov na položaj v zvočnem toku.
  • Podpora za uporabo knjižnice CuDNN za optimizacijo dela s ponavljajočimi se nevronskimi mrežami (RNN) je bila dodana v komplet orodij za module usposabljanja.
  • Minimalne zahteve za različico TensorFlow so zvišane s 1.13.1 na 1.14.0.
  • Dodana podpora za TensorFlow Lite Light Edition, ki zmanjša velikost paketa DeepSpeech z 98 MB na 3.7 MB.
  • Jezikovni model je bil prenesen v drugo obliko podatkovne strukture, kar omogoča dodelitev datotek pomnilniku ob zagonu.
  • Podpora za starejšo obliko je bila ukinjena.

Izvedba je napisana v Pythonu z uporabo platforme za strojno učenje TensorFlow in je distribuirana pod brezplačno licenco MPL 2.0. Delovno mesto Podprta je v sistemih Linux, Android, macOS in Windows. Za uporabo motorja na ploščah LePotato, Raspberry Pi 3 in Raspberry Pi 4 je dovolj zmogljivosti.


Pustite svoj komentar

Vaš e-naslov ne bo objavljen. Obvezna polja so označena z *

*

*

  1. Za podatke odgovoren: Miguel Ángel Gatón
  2. Namen podatkov: Nadzor neželene pošte, upravljanje komentarjev.
  3. Legitimacija: Vaše soglasje
  4. Sporočanje podatkov: Podatki se ne bodo posredovali tretjim osebam, razen po zakonski obveznosti.
  5. Shranjevanje podatkov: Zbirka podatkov, ki jo gosti Occentus Networks (EU)
  6. Pravice: Kadar koli lahko omejite, obnovite in izbrišete svoje podatke.