Mozilla predstavlja mehanizem za prepoznavanje govora DeepSpeech 0.9

Začetek je bil objavljen sistem za prepoznavanje glasu DeepSpeech 0.9, ki ga je razvila Mozilla, ki izvaja arhitekturo prepoznavanje glasu istega imena, ki so ga predlagali raziskovalci iz Baiduja.

Izvedba je napisan v Pythonu z uporabo platforma za strojno učenje TensorFlow in se distribuira pod brezplačno licenco MPL 2.0.

O DeepSpeechu

DeepSpeech je sestavljen iz dveh podsistemov: akustični model in dekoder. Akustični model uporablja tehnike globokega strojnega učenja za izračun verjetnosti prisotnosti določenih znakov v vhodnem zvoku.

Dekoder z algoritmom za iskanje žarkov pretvori podatke o verjetnosti znakov v besedilno predstavitev. DeepSpeech je veliko preprostejši od tradicionalnih sistemov in hkrati zagotavlja višjo kakovost prepoznavanja ob prisotnosti tujih hrupov.

Razvoj ne uporablja tradicionalnih akustičnih modelov in koncepta fonemov; namesto tega se uporablja dobro optimiziran sistem strojnega učenja, ki temelji na nevronski mreži, kar odpravlja potrebo po razvoju ločenih komponent za modeliranje različnih anomalij, kot so značilnosti šuma, odmeva in govora.

Komplet ponuja usposobljene modele, vzorčne zvočne datoteke in orodja za prepoznavanje ukazne vrstice.

Končni model je na voljo samo za angleščino in kitajščino. Za druge jezike se lahko sistema naučite sami v skladu s priloženimi navodili z uporabo glasovnih podatkov, zbranih v projektu Common Voice.

Pri uporabljen je model angleškega jezika, ki je na voljo za prenos, raven napak pri prepoznavanju v DeepSpeechu je 7.06%, če se oceni s pomočjo LibriSpeech test suite

Za primerjavo je stopnja napak pri človeškem prepoznavanju ocenjena na 5,83%.

V predlaganem modelu je najboljši rezultat prepoznavanja dosežen s čistim snemanjem moškega glasu z ameriškim naglasom v okolju brez tujih zvokov.

Po besedah avtorja knjižnice neprekinjenega prepoznavanja govora Vosk so slabosti nabora Common Voice enostranskost govornega gradiva (prevladovanje moških v 20-ih in 30-ih letih in pomanjkanje gradiva z glasom žensk, otrok in starostniki), pomanjkanje spremenljivosti besedišča (ponavljanje istih besednih zvez) in distribucija posnetkov MP3, ki so nagnjeni k izkrivljanju.

Slabosti DeepSpeech vključujejo slabo delovanje in velika poraba pomnilnika v dekoderju, pa tudi pomembni viri za urjenje modela (Mozilla uporablja sistem z 8 grafičnimi procesorji Quadro RTX 6000 z 24 GB VRAM-a v vsakem).

Slaba stran tega pristopa je ta za visokokakovostno prepoznavanje in usposabljanje nevronske mreže, motor DeepSpeech zahteva veliko količino podatkov heterogeno, ki ga v realnih pogojih narekujejo različni glasovi in ob prisotnosti naravnih zvokov.

Te podatke zbira projekt Common Voice, ustvarjen v Mozilli, ki zagotavlja preverjen nabor podatkov s 1469 urami v angleščini, 692 v nemščini, 554 v francoščini, 105 ur v ruščini in 22 ur v ukrajinščini.

Pri usposabljanju končnega angleškega modela za DeepSpeech se poleg Common Voice uporabljajo tudi podatki iz projektov LibriSpeech, Fisher in Switchboard ter približno 1700 ur prepisanih posnetkov radijskih programov.

Med spremembami v novi veji, je poudarjena možnost vsiljevanja teže besed izbrano med postopkom dekodiranja.

Poudarja tudi podporo za platformo Electron 9.2 in neobvezno izvajanje mehanizma za normalizacijo sloja (Layer Norm) pri usposabljanju nevronske mreže.

Prenesite in dobite

Zmogljivost zadostuje za uporabo motorja v ploščah LePotato, Raspberry Pi 3 in Raspberry Pi 4, pa tudi v pametnih telefonih Google Pixel 2, Sony Xperia Z Premium in Nokia 1.3.

Na voljo so pripravljeni moduli za uporabo za Python, NodeJS, C ++ in .NET za vključitev funkcij prepoznavanja govora v vaše programe (tuji razvijalci so ločeno pripravili module za Rust, Go in V).

DesdeLinux

Mozilla je predstavila DeepSpeech 0.9 Engine Recognition Engine

O DeepSpeechu

Prenesite in dobite

Pustite svoj komentar Prekliči odgovor