Mozilla introduce un motor de recunoaștere a vorbirii DeepSpeech 0.9

Vorbire profundă1

Lansarea a fost publicată motor de recunoaștere vocală DeepSpeech 0.9 dezvoltat de Mozilla, care implementează arhitectura recunoașterea vorbirii cu același nume propus de cercetătorii Baidu.

Implementarea este scris în Python folosind platforma de învățare automată TensorFlow și este distribuit sub licența gratuită MPL 2.0.

Despre DeepSpeech

DeepSpeech constă din două subsisteme: un model acustic și un decodor. Modelul acustic folosește tehnici de învățare automată profundă pentru a calcula probabilitatea ca anumite caractere să fie prezente în sunetul de intrare.

Decodorul folosește un algoritm de căutare a razelor pentru a transforma datele de probabilitate a caracterelor într-o reprezentare textuală. DeepSpeech este mult mai simplu decât sistemele tradiționale și oferă în același timp o calitate mai bună a recunoașterii în prezența zgomotului străin.

Dezvoltarea nu folosește modele acustice tradiționale și conceptul de foneme; în schimb, se utilizează un sistem de învățare automată bazat pe rețea neuronală, bine optimizat, care elimină necesitatea dezvoltării de componente separate pentru a modela diverse anomalii, cum ar fi zgomotul, ecoul și caracteristicile vorbirii.

Trusa oferă modele instruite, probe de fișiere de sunet și instrumente de recunoaștere a liniei de comandă.

Modelul finit este furnizat numai pentru engleză și chineză. Pentru alte limbi, puteți învăța singur sistemul conform instrucțiunilor atașate, folosind datele vocale colectate de proiectul Common Voice.

Când se folosește modelul gata de utilizare al limbii engleze oferite pentru descărcare, nivelul de erori de recunoaștere în DeepSpeech este de 7.06% atunci când este evaluat folosind suita de testare LibriSpeech.

Pentru comparație, rata de eroare a recunoașterii umane este estimată la 5,83%.

În modelul propus, cel mai bun rezultat al recunoașterii se obține cu o înregistrare curată a unei voci masculine cu accent american într-un mediu fără zgomote străine.

Potrivit autorului bibliotecii de recunoaștere a vorbirii continue Vosk, dezavantajele setului de voce comună sunt unilateralitatea materialului de vorbire (predominanța bărbaților în anii 20 și 30 și lipsa materialului cu vocea femeilor, copiilor și vârstnici), lipsa variabilității vocabularului (repetarea acelorași fraze) și distribuția înregistrărilor MP3 predispuse la distorsiuni.

Dezavantajele DeepSpeech includ performanțe slabe și consumul ridicat de memorie din decodor, precum și resurse importante pentru instruirea modelului (Mozilla folosește un sistem cu 8 GPU-uri Quadro RTX 6000 cu 24 GB VRAM în fiecare).

Dezavantajul acestei abordări este că pentru recunoașterea și formarea de înaltă calitate a unei rețele neuronale, motorul DeepSpeech necesită o cantitate mare de date eterogen dictat în condiții reale de voci diferite și în prezența zgomotelor naturale.

Aceste date sunt compilate de proiectul Common Voice creat în Mozilla, care oferă un set de date verificat cu 1469 de ore în engleză, 692 în germană, 554 în franceză, 105 ore în rusă și 22 de ore în ucraineană.

La instruirea ultimului model englezesc pentru DeepSpeech, pe lângă Common Voice, sunt utilizate suplimentar date din proiectele LibriSpeech, Fisher și Switchboard, precum și aproximativ 1700 de ore de înregistrări de programe radio transcrise.

Între schimbările din noua ramură, se evidențiază posibilitatea forțării greutății cuvintelor selectate în timpul procesului de decodare.

De asemenea, evidențiază suportul pentru platforma Electron 9.2 și o implementare opțională a mecanismului de normalizare a stratului (Norma stratului) la antrenarea rețelei neuronale.

Descărcați și obțineți

Performanța este suficientă pentru a utiliza motorul pe plăcile LePotato, Raspberry Pi 3 și Raspberry Pi 4, precum și pe smartphone-urile Google Pixel 2, Sony Xperia Z Premium și Nokia 1.3.

Module gata oferite de utilizat pentru Python, NodeJS, C ++ și .NET pentru a integra funcțiile de recunoaștere a vorbirii în programele dvs. (dezvoltatorii terți au module pregătite separat pentru Rust, Go și V).


Lasă comentariul tău

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *

*

*

  1. Responsabil pentru date: Miguel Ángel Gatón
  2. Scopul datelor: Control SPAM, gestionarea comentariilor.
  3. Legitimare: consimțământul dvs.
  4. Comunicarea datelor: datele nu vor fi comunicate terților decât prin obligație legală.
  5. Stocarea datelor: bază de date găzduită de Occentus Networks (UE)
  6. Drepturi: în orice moment vă puteți limita, recupera și șterge informațiile.