DeepSpeech: Mozilla's Spracherkennungsmotor

DeepSpeech1

Momentan schafft Mozilla net nëmmen a sengem populäre Webbrowser, awer huet och eng Rei Projeten ënner sengem Regenschirm, dovun Haut schwätze mir iwwer DeepSpeech. Dëst ass eng Riedserkennungsmaschinn dat implementéiert déi eponym Riederkennungsarchitektur déi vun de Baidu Fuerscher proposéiert gouf.

DeepSpeech steet eraus fir verschidde trainéiert Modeller ze bidden, Probe Audiodateien, a Kommandozeilen Unerkennungsinstrumenter, fir d'Sproocherkennungsfunktioun an Är Programmer z'integréieren. Fir et ready-to-use Moduler gi fir Python, NodeJS, C ++ an .NET zur Verfügung gestallt, och wann extern Entwéckler och separat Moduler fir Rust a Go virbereet hunn.

De fäerdege Modell gëtt nëmme fir déi englesch Sprooch geliwwert, awer fir aner Sproochen no den ugehaangenen Instruktiounen kann de System mat de Stëmmdaten trainéiert ginn, déi vum Common Voice Projet gesammelt ginn.

Iwwer DeepSpeech

DeepSpeech ass vill méi einfach wéi traditionell Systemer a gläichzäiteg eng méi héich Unerkennungsqualitéit a Präsenz vun auslännesche Kaméidi.

D'Entwécklung benotzt keng traditionell akustesch Modeller an d'Konzept vu Phonemen; amplaz, benotzen engem Maschinn Léieren System Gutt optiméiert neural Netzwierk baséiert, wat eliminéiert d'Noutwendegkeet separat Komponenten z'entwéckelen fir verschidde Abweichungen ze modelléieren wéi Geräischer, Echo a Riedscharakteristiken.

Déi Flip Säit vun dëser Approche ass datt fir qualitativ héich Unerkennung an Ausbildung vun engem neuralen Netzwierk, de Motor ze kréien DeepSpeech erfuerdert eng grouss Quantitéit un Daten heterogen diktéiert a reelle Konditioune vu verschiddene Stëmmen an an der Präsenz vun natierlechem Kaméidi.

De Common Voice Projet erstallt a Mozilla ass verantwortlech fir dës Donnéeën ze sammelen, e bewisener Datensatz mat 780 Stonnen op Englesch, 325 op Däitsch, 173 op Franséisch a 27 Stonnen op Russesch.

D'Enn Zil vum Common Voice Projet ass d'Akkumulatioun vun 10 Dausend Stonnen mat Opzeechnunge vu verschiddenen Aussoen Ausdréck typesch fir mënschlech Ried, déi en akzeptablen Niveau un Unerkennungsfeeler erreechen. An der aktueller Form hunn d'Participanten vum Projet scho insgesamt 4.3 Dausend Stonnen geléiert, vun deenen 3.5 Dausend den Test gepackt hunn.

Beim Enseignement vum leschte Modell vun Englesch fir DeepSpeech goufen 3816 Stonne Ried benotzt, ausser Common Voice déi Daten aus LibriSpeech, Fisher a Switchboard Projeten deckt, souwéi ongeféier 1700 Stonnen transkribéiert Radiosprogrammopnamen.

Wann Dir den englesche ready-to-download Modell benotzt, den Unerkennungsfehler Niveau an DeepSpeech ass 7,5% wa mat der LibriSpeech Test Suite evaluéiert. Zum Verglach ass de Niveau vu Feeler bei der mënschlecher Unerkennung op 5.83% geschat.

DeepSpeech besteet aus zwee Subsystemer: en akustesche Modell an en Decoder. Den akustesche Modell benotzt déif Maschinneléiere Methoden fir d'Wahrscheinlechkeet vun der Präsenz vu bestëmmte Personnagen am Input Sound ze berechnen. Den Decoder benotzt e Ray Sich Algorithmus fir d'Charakter Wahrscheinlechkeet Daten an eng Text Representatioun ze konvertéieren.

Iwwer déi nei Versioun vun DeepSpeech

DeepSpeech ass de Moment a senger Versioun 0.6 an deenen déi folgend Ännerungen beliicht sinn:

  • En neien Iwwerdroungsdecoder gëtt proposéiert dee méi grouss Reaktiounsfäegkeet bitt an net ofhängeg vun der Gréisst vun de veraarbechten Audiodaten.
  • Ännerunge goufen an der API gemaach an et gouf geschafft fir Funktiounsnimm ze vereenegen. Funktioune sinn derbäigesat ginn fir zousätzlech Metadaten iwwer den Timing ze kréien, et erlaabt net nëmmen eng Textrepresentatioun am Output ze kréien, awer och d'Bindung vun eenzelne Personnagen a Sätz op eng Positioun am Audiostroum ze verfollegen.
  • Ënnerstëtzung fir d'CuDNN Bibliothéik ze benotzen fir d'Aarbecht mat rezidivem neurale Netzwierker (RNN) ze optimiséieren ass an den Toolkit fir Trainingsmoduler bäigefüügt.
  • Déi Mindestufuerderunge fir d'TensorFlow Versioun si vun 1.13.1 op 1.14.0 eropgaang.
  • Zousätzlech Ënnerstëtzung fir TensorFlow Lite Light Edition, déi d'DepSpeech Package Gréisst vun 98MB op 3.7MB reduzéiert.
  • De Sproochmodell ass an en anert Datestrukturformat iwwerdroe ginn, sou datt Dateie beim Start vun der Erënnerung zougewise kënne ginn.
  • Ënnerstëtzung fir dat aalt Format gouf gestoppt.

D'Ëmsetzung gëtt a Python mat der TensorFlow Maschinneléierplattform geschriwwen a gëtt ënner der gratis MPL 2.0 Lizenz verdeelt. Den Job Et gëtt op Linux, Android, macOS a Windows ënnerstëtzt. Et gëtt genuch Leeschtung fir de Motor op LePotato, Raspberry Pi 3 a Raspberry Pi 4 Boards ze benotzen.


Den Inhalt vum Artikel hält sech un eis Prinzipie vun redaktionnell Ethik. Fir e Feeler ze mellen klickt hei.

Gitt d'éischt fir ze kommentéieren

Gitt Äre Kommentar

Är Email Adress gëtt net publizéiert ginn. Néideg Felder sinn markéiert mat *

*

*

  1. Responsabel fir d'Daten: Miguel Ángel Gatón
  2. Zweck vun den Donnéeën: Kontroll SPAM, Kommentarmanagement.
  3. Legitimatioun: Är Zoustëmmung
  4. Kommunikatioun vun den Donnéeën: D'Donnéeë ginn net un Drëttubidder matgedeelt ausser duerch legal Verpflichtung.
  5. Datenspeicher: Datebank gehost vun Occentus Networks (EU)
  6. Rechter: Zu all Moment kënnt Dir Är Informatioun limitéieren, recuperéieren an läschen.