Mozilla präsentiert die Spracherkennungs-Engine DeepSpeech 0.9

Der Start wurde veröffentlicht Spracherkennungs-Engine DeepSpeech 0.9 wurde von Mozilla entwickelt, die die Architektur von implementiert Spracherkennung von Baidu-Forschern vorgeschlagen.

Die Umsetzung wird in Python mit geschrieben die Plattform für maschinelles Lernen TensorFlow und wird unter der kostenlosen MPL 2.0-Lizenz vertrieben.

Über DeepSpeech

DeepSpeech besteht aus zwei Subsystemen: ein akustisches Modell und ein Decoder. Das akustische Modell verwendet tiefgreifende Techniken des maschinellen Lernens, um die Wahrscheinlichkeit zu berechnen, dass bestimmte Zeichen im eingegebenen Ton vorhanden sind.

Der Decodierer verwendet einen Strahlensuchalgorithmus, um die Zeichenwahrscheinlichkeitsdaten in eine Textdarstellung umzuwandeln. DeepSpeech ist viel einfacher als herkömmliche Systeme und bietet gleichzeitig eine höhere Erkennungsqualität bei Fremdgeräuschen.

Die Entwicklung verwendet keine traditionellen akustischen Modelle und das Konzept der Phoneme; Stattdessen wird ein gut optimiertes maschinelles Lernsystem auf der Basis eines neuronalen Netzwerks verwendet, bei dem keine separaten Komponenten entwickelt werden müssen, um verschiedene Anomalien wie Rauschen, Echo und Spracheigenschaften zu modellieren.

El-Kit bietet geschulte Modelle, Beispiel-Sounddateien und Befehlszeilenerkennungstools.

Das fertige Modell wird nur für Englisch und Chinesisch geliefert. Für andere Sprachen können Sie das System gemäß den beigefügten Anweisungen anhand der vom Common Voice-Projekt gesammelten Sprachdaten selbst lernen.

wenn Es wird das gebrauchsfertige Modell der zum Herunterladen angebotenen englischen Sprache verwendet. Die Anzahl der Erkennungsfehler in DeepSpeech beträgt 7.06%, wenn sie mit der LibriSpeech-Testsuite bewertet werden.

Zum Vergleich wird die Fehlerrate bei der Erkennung des Menschen auf 5,83% geschätzt.

Im vorgeschlagenen Modell wird das beste Erkennungsergebnis mit einer sauberen Aufnahme einer Männerstimme mit amerikanischem Akzent in einer Umgebung ohne Nebengeräusche erzielt.

Laut dem Autor der kontinuierlichen Spracherkennungsbibliothek von Vosk sind die Nachteile des Common Voice-Sets die Einseitigkeit des Sprachmaterials (das Überwiegen von Männern in den Zwanzigern und Dreißigern und der Mangel an Material mit der Stimme von Frauen und Kindern) und ältere Menschen), mangelnde Vokabularvariabilität (Wiederholung derselben Sätze) und die Verteilung von MP20-Aufnahmen, die zu Verzerrungen neigen.

Zu den Nachteilen von DeepSpeech gehört eine schlechte Leistung und der hohe Speicherverbrauch im Decoder sowie wichtige Ressourcen zum Trainieren des Modells (Mozilla verwendet ein System mit 8 Quadro RTX 6000-GPUs mit jeweils 24 GB VRAM).

Der Nachteil dieses Ansatzes ist der folgende zur qualitativ hochwertigen Erkennung und zum Training eines neuronalen Netzes, die DeepSpeech-Engine erfordert eine große Datenmenge heterogen diktiert unter realen Bedingungen durch verschiedene Stimmen und in Gegenwart natürlicher Geräusche.

Diese Daten werden vom in Mozilla erstellten Common Voice-Projekt zusammengestellt, das einen verifizierten Datensatz mit 1469 Stunden auf Englisch, 692 Stunden auf Deutsch, 554 Stunden auf Französisch, 105 Stunden auf Russisch und 22 Stunden auf Ukrainisch bereitstellt.

Beim Training des endgültigen englischen Modells für DeepSpeech werden neben Common Voice zusätzlich Daten aus den Projekten LibriSpeech, Fisher und Switchboard sowie ca. 1700 Stunden transkribierte Radioprogrammaufzeichnungen verwendet.

Zwischen den Änderungen in der neuen Niederlassung, Die Möglichkeit, das Gewicht der Wörter zu erzwingen, wird hervorgehoben während des Dekodierungsprozesses ausgewählt.

Außerdem wird die Unterstützung der Electron 9.2-Plattform und eine optionale Implementierung des Schichtnormalisierungsmechanismus (Layer Norm) beim Training des neuronalen Netzwerks hervorgehoben.

Herunterladen und erhalten

Die Leistung reicht aus, um den Motor in LePotato-, Raspberry Pi 3- und Raspberry Pi 4-Boards sowie in den Smartphones Google Pixel 2, Sony Xperia Z Premium und Nokia 1.3 zu verwenden.

Fertige Module angeboten Verwendung für Python, NodeJS, C ++ und .NET zur Integration von Spracherkennungsfunktionen in Ihre Programme (Entwickler von Drittanbietern haben Module für Rust, Go und V separat vorbereitet).

DesdeLinux

Mozilla führt die DeepSpeech 0.9 Speech Recognition Engine ein

Über DeepSpeech

Herunterladen und erhalten

Hinterlasse einen Kommentar Antwort abbrechen