DeepSpeech: Mozilin mehanizam za prepoznavanje govora

DeepSpeech1

Trenutno Mozilla ne samo da radi u svom popularnom web pregledaču, već ima i niz projekata pod svojim kišobranom, od kojih Danas ćemo razgovarati o DeepSpeechu. Ovo je mehanizam za prepoznavanje govora koja implementira istoimenu arhitekturu prepoznavanja govora koju su predložili istraživači Baidu.

DeepSpeech se ističe ponudom različitih obučenih modela, uzorkujte audio datoteke i alate za prepoznavanje naredbenog retka kako biste integrirali funkciju prepoznavanja govora u svoje programe. Za to gotovi moduli za Python, NodeJS, C ++ i .NET, iako su vanjski programeri također pripremili zasebne module za Rust and Go.

Gotov model isporučuje se samo za engleski jezik, ali za ostale jezike, u skladu s priloženim uputama, sistem se može obučiti koristeći glasovne podatke prikupljene projektom Common Voice.

O DeepSpeechu

DeepSpeech je mnogo jednostavniji od tradicionalnih sistema a istovremeno pruža veći kvalitet prepoznavanja u prisustvu stranih buka.

Razvoj ne koristi tradicionalne akustičke modele i koncept fonema; umjesto toga, koristiti sistem mašinskog učenja Dobro optimizirana neuronska mreža, što eliminira potrebu za razvojem odvojenih komponenata za modeliranje različitih odstupanja kao što su šum, eho i govorne karakteristike.

Druga strana ovog pristupa je da motor dobije visokokvalitetno prepoznavanje i obuku neuronske mreže DeepSpeech zahtijeva veliku količinu podataka heterogeno diktirano u stvarnim uslovima različitim glasovima i u prisustvu prirodne buke.

Projekt Common Voice kreiran u Mozilli odgovoran je za prikupljanje takvih podataka, pružajući provjereni skup podataka sa 780 sati na engleskom, 325 na njemačkom, 173 na francuskom i 27 sati na ruskom.

Krajnji cilj iz projekta Common Voice je akumulacija od 10 hiljada sati sa snimcima različitih izgovora fraze tipične za ljudski govor, koje će postići prihvatljiv nivo pogrešaka u prepoznavanju. U trenutnom obliku, sudionici projekta već su predavali ukupno 4.3 hiljade sati, od čega je 3.5 hiljada položilo test.

U nastavi zadnjeg engleskog modela za DeepSpeech korišteno je 3816 sati govora, osim Common Voice-a koji uključuje projektne podatke iz LibriSpeech-a, Fisher-a i Switchboard-a, kao i oko 1700 sati prepisanih snimaka radio programa.

Kada koristite engleski model spreman za preuzimanje, nivo greške prepoznavanja u DeepSpeechu je 7,5% kada se vrednuje pomoću LibriSpeech test paketa. Poređenja radi, nivo grešaka u ljudskom prepoznavanju procjenjuje se na 5.83%.

DeepSpeech sastoji se od dva podsustava: akustičnog modela i dekodera. Akustički model koristi metode dubokog mašinskog učenja za izračunavanje vjerovatnoće prisustva određenih znakova u ulaznom zvuku. Dekoder koristi algoritam pretraživanja zraka za pretvaranje podataka o vjerovatnoći znakova u tekstualni prikaz.

O novoj verziji DeepSpeech-a

DeepSpeech je trenutno u svojoj verziji 0.6 u kojem su istaknute sljedeće promjene:

  • Predložen je novi dekoder prijenosa koji pruža veću odzivnost i ne ovisi o veličini obrađenih audio podataka.
  • Izmjene su izvršene u API-ju i urađen je posao na objedinjavanju imena funkcija. Dodane su funkcije za dobivanje dodatnih metapodataka o vremenu, omogućavajući ne samo primanje tekstualne reprezentacije u izlazu, već i praćenje vezanja pojedinačnih znakova i rečenica na poziciju u audio toku.
  • Podrška za upotrebu CuDNN biblioteke za optimizaciju rada s ponavljajućim neuronskim mrežama (RNN) dodana je u set alata za module obuke.
  • Minimalni zahtjevi za verziju TensorFlow podignuti su sa 1.13.1 na 1.14.0.
  • Dodata je podrška za TensorFlow Lite Light Edition, koja smanjuje veličinu paketa DeepSpeech sa 98 MB na 3.7 MB.
  • Jezički model prebačen je u drugi format strukture podataka, što omogućava dodjelu datoteka u memoriju prilikom pokretanja.
  • Podrška za stariji format je prekinuta.

Implementacija je napisana na Pythonu koristeći platformu za mašinsko učenje TensorFlow i distribuira se pod besplatnom licencom MPL 2.0. Posao Podržana je na Linuxu, Androidu, macOS-u i Windows-u. Dovoljne su performanse za upotrebu motora na pločama LePotato, Raspberry Pi 3 i Raspberry Pi 4.


Budite prvi koji komentarišete

Ostavite komentar

Vaša e-mail adresa neće biti objavljena. Obavezna polja su označena sa *

*

*

  1. Za podatke odgovoran: Miguel Ángel Gatón
  2. Svrha podataka: Kontrola neželjene pošte, upravljanje komentarima.
  3. Legitimacija: Vaš pristanak
  4. Komunikacija podataka: Podaci se neće dostavljati trećim stranama, osim po zakonskoj obavezi.
  5. Pohrana podataka: Baza podataka koju hostuje Occentus Networks (EU)
  6. Prava: U bilo kojem trenutku možete ograničiti, oporaviti i izbrisati svoje podatke.