Mozilla stellt DeepSpeech 0.9 Speech Recognition Engine vir

DeepSpeech1

Start gouf publizéiert Stëmmerkennungsmotor DeepSpeech 0.9 entwéckelt vu Mozilla, déi d'Architektur vu Erkenntnis mam selwechten Numm proposéiert vu Baidu Fuerscher.

D'Ëmsetzung gëtt a Python geschriwwen mat der Maschinn léieren Plattform TensorFlow a gëtt ënner der gratis MPL 2.0 Lizenz verdeelt.

Iwwer DeepSpeech

DeepSpeech besteet aus zwee Subsystemer: en akustesche Modell an en Decoder. Den akustesche Modell benotzt Deep Machine Learning Techniken fir d'Wahrscheinlechkeet ze berechnen datt verschidde Personnagen am Input Sound präsent sinn.

Den Decoder benotzt e Ray Sich Algorithmus fir d'Charakter Wahrscheinlechkeet Daten an eng textuell Representatioun ze transforméieren. DeepSpeech ass vill méi einfach wéi traditionell Systemer a gëtt zur selwechter Zäit eng méi héich Unerkennungsqualitéit a Präsenz vun auslännesche Kaméidi.

D'Entwécklung benotzt keng traditionell akustesch Modeller an d'Konzept vu Phonemen; amplaz, gëtt e gutt optimiséierte neurologescht Netzwierkbaséiert Maschinneléiere System benotzt, wat de Besoin eliminéiert separat Komponenten z'entwéckele fir verschidde Anomalien ze modelléieren wéi Kaméidi, Echo a Riedscharakteristiken.

De Kit bitt trainéiert Modeller un, Beispill Sounddateien a Command Line Unerkennungsinstrumenter.

De fäerdege Modell gëtt nëmme fir Englesch a Chinesesch geliwwert. Fir aner Sprooche kënnt Dir de System selwer léieren no den ugehaangenen Instruktiounen, mat de Stëmmdaten, déi vum Common Voice Projet gesammelt ginn.

Wéini de ready-to-use Modell vun der englescher Sprooch fir den Download angeboten gëtt benotzt, den Niveau vun Unerkennungsfeeler an DeepSpeech ass 7.06% wa se mat der LibriSpeech Test Suite evaluéiert ginn.

Zum Verglach ass d'mënschlech Unerkennungsfehlerquote op 5,83% geschat.

Am proposéierte Modell gëtt dat bescht Unerkennungsresultat mat enger propperer Opnam vun enger männlecher Stëmm mat engem amerikaneschen Akzent an engem Ëmfeld ouni auslännesch Geräischer erreecht.

Laut dem Autor vun der Vosk kontinuéierter Sproocherkennungsbibliothéik sinn d'Nodeeler vum Common Voice Set d'Ensäitegkeet vum Sproochmaterial (d'Iwwerhand vu Männer an hiren 20s an 30s an de Mangel u Material mat der Stëmm vu Fraen, Kanner a eeler), de Mangel u Vokabulärvariabilitéit (Widderhuelung vun de selwechte Sätz) an d'Verdeelung vun MP3 Opnamen ufälleg fir Verzerrung.

Nodeeler vun DeepSpeech enthalen eng schlecht Leeschtung an den héije Gedächtniskonsum am Decoder, souwéi wichteg Ressourcen fir de Modell ze trainéieren (Mozilla benotzt e System mat 8 Quadro RTX 6000 GPUs mat 24GB VRAM an all eenzelen).

Den Nodeel vun dëser Approche ass datt fir qualitativ héich Unerkennung an Ausbildung vun engem neuréisen Netzwierk, den DeepSpeech Motor erfuerdert eng grouss Quantitéit un Daten heterogen diktéiert a reelle Bedingunge vu verschiddene Stëmmen an der Präsenz vun natierleche Geräischer.

Dës Donnéeë gi vum Common Voice Projet erstallt a Mozilla erstallt, deen e verifizéierten Datensatz mat 1469 Stonnen op Englesch, 692 op Däitsch, 554 op Franséisch, 105 Stonnen op Russesch an 22 Stonnen op Ukrainesch liwwert.

Beim Training vum definitiven englesche Modell fir DeepSpeech, zousätzlech zu Common Voice, ginn och Daten aus de LibriSpeech, Fisher a Switchboard Projete benotzt, souwéi ongeféier 1700 Stonnen transkribéiert Radiosprogrammopnamen.

Tëscht den Ännerungen an der neier Branche, d'Méiglechkeet d'Gewiicht vun de Wierder ze forcéieren ass beliicht während dem Entschlësselungsprozess ausgewielt.

Et beliicht och d'Ënnerstëtzung fir d'Elektron 9.2 Plattform an eng optional Ëmsetzung vum Layer Normaliséierungsmechanismus (Layer Norm) beim Training vum neurale Reseau.

Eroflueden a kréien

D'Performance ass genuch fir de Motor an LePotato, Raspberry Pi 3 a Raspberry Pi 4 Boards ze benotzen, sou wéi och am Google Pixel 2, Sony Xperia Z Premium an Nokia 1.3 Smartphones.

Prett Moduler ugebueden fir Python, NodeJS, C ++ an .NET ze benotzen fir Spracherkennungsfunktiounen an Är Programmer z'integréieren (Drëtt-Partei Entwéckler hunn separat Moduler fir Rust, Go a V preparéiert).


Den Inhalt vum Artikel hält sech un eis Prinzipie vun redaktionnell Ethik. Fir e Feeler ze mellen klickt hei.

Gitt d'éischt fir ze kommentéieren

Gitt Äre Kommentar

Är Email Adress gëtt net publizéiert ginn. Néideg Felder sinn markéiert mat *

*

*

  1. Responsabel fir d'Daten: Miguel Ángel Gatón
  2. Zweck vun den Donnéeën: Kontroll SPAM, Kommentarmanagement.
  3. Legitimatioun: Är Zoustëmmung
  4. Kommunikatioun vun den Donnéeën: D'Donnéeë ginn net un Drëttubidder matgedeelt ausser duerch legal Verpflichtung.
  5. Datenspeicher: Datebank gehost vun Occentus Networks (EU)
  6. Rechter: Zu all Moment kënnt Dir Är Informatioun limitéieren, recuperéieren an läschen.