Mozilla stel DeepSpeech 0.9 spraakherkenningsenjin bekend

DeepSpeech1

Bekendstelling is gepubliseer stemherkenningsenjin DeepSpeech 0.9 ontwikkel deur Mozilla, wat die argitektuur van spraakherkenning met dieselfde naam voorgestel deur Baidu-navorsers.

Die implementering word in Python geskryf met behulp van die masjienleerplatform TensorFlow en word versprei onder die gratis MPL 2.0-lisensie.

Oor DeepSpeech

DeepSpeech bestaan ​​uit twee substelsels: 'n akoestiese model en 'n dekodeerder. Die akoestiese model gebruik diep masjienleertegnieke om die waarskynlikheid te bereken dat sekere karakters in die invoerklank voorkom.

Die dekodeerder gebruik 'n straalsoekalgoritme om die karakterwaarskynlikheidsdata in 'n teksvoorstelling te omskep. DeepSpeech is baie eenvoudiger as tradisionele stelsels en bied terselfdertyd 'n hoër gehalte aan erkenning in die teenwoordigheid van vreemde geraas.

Die ontwikkeling gebruik nie tradisionele akoestiese modelle en die konsep van foneme nie; in plaas daarvan word 'n goed geoptimaliseerde neurale netwerk-gebaseerde masjienleerstelsel gebruik, wat die behoefte om afsonderlike komponente te ontwikkel om verskillende afwykings soos geraas-, eggo- en spraakkenmerke te modelleer, uit die weg ruim.

Die stel bied opgeleide modelle aan, voorbeeld van klanklêers en herkenningsinstrumente vir bevellyne.

Die voltooide model word slegs vir Engels en Chinees voorsien. Vir ander tale kan u die stelsel self leer volgens die aangehegte instruksies met behulp van die stemdata wat deur die Common Voice-projek versamel is.

Wanneer die gebruiksklare model van die Engelse taal wat aangebied word om af te laai, word gebruik, die vlak van herkenningsfoute in DeepSpeech is 7.06% as dit met behulp van die LibriSpeech-toetspakket geëvalueer word.

Ter vergelyking word die foutsyfer vir menslike erkenning op 5,83% geraam.

In die voorgestelde model word die beste herkenningsresultaat behaal met 'n skoon opname van 'n manstem met 'n Amerikaanse aksent in 'n omgewing sonder vreemde geluide.

Volgens die skrywer van die Vosk Biblioteek vir deurlopende spraakherkenning is die nadele van die Common Voice-reeks die eensydigheid van die spraakmateriaal (die oorheersing van mans in hul twintigs en dertigs en die gebrek aan materiaal met die stem van vroue, kinders en bejaardes), die gebrek aan wisselvalligheid in die woordeskat (herhaling van dieselfde frases) en die verspreiding van MP20-opnames wat geneig is tot vervorming.

Nadele van DeepSpeech sluit in swak prestasie en die hoë geheueverbruik in die dekodeerder, asook belangrike hulpbronne om die model op te lei (Mozilla gebruik 'n stelsel met 8 Quadro RTX 6000 GPU's met 24 GB VRAM in elk).

Die nadeel van hierdie benadering is dat vir erkenning en opleiding van 'n neurale netwerk van hoë gehalte, die DeepSpeech-enjin benodig 'n groot hoeveelheid data heterogeen gedikteer in werklike toestande deur verskillende stemme en in die teenwoordigheid van natuurlike geluide.

Hierdie data word saamgestel deur die Common Voice-projek wat in Mozilla geskep is, wat 'n geverifieerde datastel bied met 1469 uur in Engels, 692 in Duits, 554 in Frans, 105 uur in Russies en 22 uur in Oekraïens.

By die opleiding van die finale Engelse model vir DeepSpeech word, benewens Common Voice, ook data van die LibriSpeech-, Fisher- en Switchboard-projekte gebruik, sowel as ongeveer 1700 uur se opnames van getranskribeerde radioprogramme.

Tussen die veranderinge in die nuwe tak, word die moontlikheid beklemtoon om die gewig van die woorde af te dwing tydens die dekoderingsproses gekies.

Dit beklemtoon ook die ondersteuning vir die Electron 9.2-platform en 'n opsionele implementering van die laagnormaliseringsmeganisme (Layer Norm) tydens die opleiding van die neurale netwerk.

Laai af en kry

Die werkverrigting is voldoende om die motor in LePotato, Raspberry Pi 3 en Raspberry Pi 4-borde te gebruik, sowel as Google Pixel 2, Sony Xperia Z Premium en Nokia 1.3-slimfone.

Klaar modules word aangebied om te gebruik vir Python, NodeJS, C ++ en .NET om spraakherkenningsfunksies in u programme te integreer (derdeparty-ontwikkelaars het afsonderlike modules vir Rust, Go en V voorberei).


Die inhoud van die artikel voldoen aan ons beginsels van redaksionele etiek. Klik op om 'n fout te rapporteer hier.

Wees die eerste om te kommentaar lewer

Laat u kommentaar

Jou e-posadres sal nie gepubliseer word nie. Verpligte velde gemerk met *

*

*

  1. Verantwoordelik vir die data: Miguel Ángel Gatón
  2. Doel van die data: Beheer SPAM, bestuur van kommentaar.
  3. Wettiging: U toestemming
  4. Kommunikasie van die data: Die data sal nie aan derde partye oorgedra word nie, behalwe deur wettige verpligtinge.
  5. Datastoor: databasis aangebied deur Occentus Networks (EU)
  6. Regte: U kan u inligting te alle tye beperk, herstel en verwyder.