DeepSpeech: el motor de reconocimiento de voz de Mozilla

Trenutno Mozilla ne samo da radi u svom popularnom web pregledaču, već ima i niz projekata pod svojim kišobranom, od kojih Danas ćemo razgovarati o DeepSpeechu. Ovo je mehanizam za prepoznavanje govora koja implementira istoimenu arhitekturu prepoznavanja govora koju su predložili istraživači Baidu.

DeepSpeech se ističe ponudom različitih obučenih modela, uzorkujte audio datoteke i alate za prepoznavanje naredbenog retka kako biste integrirali funkciju prepoznavanja govora u svoje programe. Za to gotovi moduli za Python, NodeJS, C ++ i .NET, iako su vanjski programeri također pripremili zasebne module za Rust and Go.

Gotov model isporučuje se samo za engleski jezik, ali za ostale jezike, u skladu s priloženim uputama, sistem se može obučiti koristeći glasovne podatke prikupljene projektom Common Voice.

O DeepSpeechu

DeepSpeech je mnogo jednostavniji od tradicionalnih sistema a istovremeno pruža veći kvalitet prepoznavanja u prisustvu stranih buka.

Razvoj ne koristi tradicionalne akustičke modele i koncept fonema; umjesto toga, koristiti sistem mašinskog učenja Dobro optimizirana neuronska mreža, što eliminira potrebu za razvojem odvojenih komponenata za modeliranje različitih odstupanja kao što su šum, eho i govorne karakteristike.

Druga strana ovog pristupa je da motor dobije visokokvalitetno prepoznavanje i obuku neuronske mreže DeepSpeech zahtijeva veliku količinu podataka heterogeno diktirano u stvarnim uslovima različitim glasovima i u prisustvu prirodne buke.

Projekt Common Voice kreiran u Mozilli odgovoran je za prikupljanje takvih podataka, pružajući provjereni skup podataka sa 780 sati na engleskom, 325 na njemačkom, 173 na francuskom i 27 sati na ruskom.

Krajnji cilj iz projekta Common Voice je akumulacija od 10 hiljada sati sa snimcima različitih izgovora fraze tipične za ljudski govor, koje će postići prihvatljiv nivo pogrešaka u prepoznavanju. U trenutnom obliku, sudionici projekta već su predavali ukupno 4.3 hiljade sati, od čega je 3.5 hiljada položilo test.

U nastavi zadnjeg engleskog modela za DeepSpeech korišteno je 3816 sati govora, osim Common Voice-a koji uključuje projektne podatke iz LibriSpeech-a, Fisher-a i Switchboard-a, kao i oko 1700 sati prepisanih snimaka radio programa.

Kada koristite engleski model spreman za preuzimanje, nivo greške prepoznavanja u DeepSpeechu je 7,5% kada se vrednuje pomoću LibriSpeech test paketa. Poređenja radi, nivo grešaka u ljudskom prepoznavanju procjenjuje se na 5.83%.

DeepSpeech sastoji se od dva podsustava: akustičnog modela i dekodera. Akustički model koristi metode dubokog mašinskog učenja za izračunavanje vjerovatnoće prisustva određenih znakova u ulaznom zvuku. Dekoder koristi algoritam pretraživanja zraka za pretvaranje podataka o vjerovatnoći znakova u tekstualni prikaz.

O novoj verziji DeepSpeech-a

DeepSpeech je trenutno u svojoj verziji 0.6 u kojem su istaknute sljedeće promjene:

Predložen je novi dekoder prijenosa koji pruža veću odzivnost i ne ovisi o veličini obrađenih audio podataka.
Izmjene su izvršene u API-ju i urađen je posao na objedinjavanju imena funkcija. Dodane su funkcije za dobivanje dodatnih metapodataka o vremenu, omogućavajući ne samo primanje tekstualne reprezentacije u izlazu, već i praćenje vezanja pojedinačnih znakova i rečenica na poziciju u audio toku.
Podrška za upotrebu CuDNN biblioteke za optimizaciju rada s ponavljajućim neuronskim mrežama (RNN) dodana je u set alata za module obuke.
Minimalni zahtjevi za verziju TensorFlow podignuti su sa 1.13.1 na 1.14.0.
Dodata je podrška za TensorFlow Lite Light Edition, koja smanjuje veličinu paketa DeepSpeech sa 98 MB na 3.7 MB.
Jezički model prebačen je u drugi format strukture podataka, što omogućava dodjelu datoteka u memoriju prilikom pokretanja.
Podrška za stariji format je prekinuta.

Implementacija je napisana na Pythonu koristeći platformu za mašinsko učenje TensorFlow i distribuira se pod besplatnom licencom MPL 2.0. Posao Podržana je na Linuxu, Androidu, macOS-u i Windows-u. Dovoljne su performanse za upotrebu motora na pločama LePotato, Raspberry Pi 3 i Raspberry Pi 4.

DesdeLinux

DeepSpeech: Mozilin mehanizam za prepoznavanje govora

O DeepSpeechu

O novoj verziji DeepSpeech-a

Ostavite komentar Otkaži odgovor