DeepSpeech: Mozilla's spraakherkenningsengine

Momenteel werkt Mozilla niet alleen in zijn populaire webbrowser, maar heeft het ook een verscheidenheid aan projecten onder zijn paraplu, waarvan Vandaag zullen we praten over DeepSpeech. Dit is een spraakherkenningsengine dat de gelijknamige architectuur voor spraakherkenning implementeert die door de Baidu-onderzoekers is voorgesteld.

DeepSpeech onderscheidt zich door het aanbieden van verschillende getrainde modellen, voorbeeldaudiobestanden en opdrachtregelherkenningstools om de spraakherkenningsfunctie in uw programma's te integreren. Ervoor Er zijn kant-en-klare modules beschikbaar voor Python, NodeJS, C ++ en .NET, hoewel externe ontwikkelaars ook afzonderlijke modules voor Rust en Go hebben voorbereid.

Het voltooide model wordt alleen geleverd voor de Engelse taal, maar voor andere talen kan het systeem volgens de bijgevoegde instructies worden getraind met behulp van de spraakgegevens die zijn verzameld door het Common Voice-project.

Over DeepSpeech

DeepSpeech is veel eenvoudiger dan traditionele systemen en biedt tegelijkertijd een hogere herkenningskwaliteit in de aanwezigheid van externe ruis.

De ontwikkeling maakt geen gebruik van traditionele akoestische modellen en het concept van fonemen; in plaats daarvan, gebruik een machine learning-systeem Goed geoptimaliseerd neuraal netwerk, waardoor het niet nodig is om afzonderlijke componenten te ontwikkelen om verschillende afwijkingen te modelleren, zoals ruis, echo en spraakeigenschappen.

De keerzijde van deze aanpak is dat je hoogwaardige herkenning en training krijgt van een neuraal netwerk, de motor DeepSpeech vereist een grote hoeveelheid gegevens heterogeen gedicteerd in reële omstandigheden door verschillende stemmen en in de aanwezigheid van natuurlijk geluid.

Het Common Voice-project gemaakt in Mozilla is verantwoordelijk voor het verzamelen van dergelijke gegevens en levert een bewezen dataset met 780 uur in het Engels, 325 in het Duits, 173 in het Frans en 27 uur in het Russisch.

Het einddoel van het Common Voice-project is de opeenstapeling van 10 duizend uur met opnames van verschillende uitspraken uitdrukkingen die kenmerkend zijn voor menselijke spraak, waarmee een aanvaardbaar niveau van herkenningsfouten wordt bereikt. In de huidige vorm hebben de projectdeelnemers in totaal al 4.3 duizend uur les gegeven, waarvan 3.5 duizend voor de toets zijn geslaagd.

Bij het onderwijzen van het uiteindelijke model Engels voor DeepSpeech werd 3816 uur spraak gebruikt, behalve Common Voice, dat gegevens omvat van LibriSpeech-, Fisher- en Switchboard-projecten, evenals ongeveer 1700 uur aan getranscribeerde radioprogramma-opnames.

Bij gebruik van het Engelse, downloadklare model, het niveau van herkenningsfout in DeepSpeech is 7,5% wanneer geëvalueerd met de LibriSpeech-testsuite. Ter vergelijking: het foutenpercentage bij menselijke herkenning wordt geschat op 5.83%.

DeepSpeech bestaat uit twee subsystemen: een akoestisch model en een decoder. Het akoestische model gebruikt deep machine learning-methoden om de waarschijnlijkheid van de aanwezigheid van bepaalde karakters in het invoergeluid te berekenen. De decoder gebruikt een straalzoekalgoritme om de karakterwaarschijnlijkheidsgegevens om te zetten in een tekstweergave.

Over de nieuwe versie van DeepSpeech

DeepSpeech is momenteel in versie 0.6 waarin de volgende wijzigingen worden benadrukt:

Er wordt een nieuwe transmissiedecoder voorgesteld die een grotere reactietijd biedt en niet afhankelijk is van de grootte van de verwerkte audiogegevens.
Er zijn wijzigingen aangebracht in de API en er is gewerkt aan het uniformeren van functienamen. Er zijn functies toegevoegd om extra metagegevens over de timing te verkrijgen, waardoor niet alleen een tekstweergave in de uitvoer kan worden ontvangen, maar ook de binding van individuele tekens en zinnen naar een positie in de audiostream kan worden getraceerd.
Ondersteuning voor het gebruik van de CuDNN-bibliotheek om het werk met terugkerende neurale netwerken (RNN) te optimaliseren, is toegevoegd aan de toolkit voor trainingsmodules.
De minimumvereisten voor de TensorFlow-versie zijn verhoogd van 1.13.1 naar 1.14.0.
Ondersteuning toegevoegd voor TensorFlow Lite Light Edition, waardoor de grootte van het DeepSpeech-pakket wordt teruggebracht van 98 MB naar 3.7 MB.
Het taalmodel is overgebracht naar een ander datastructuurformaat, waardoor bestanden tijdens het opstarten aan het geheugen kunnen worden toegewezen.
Ondersteuning voor het oudere formaat is beëindigd.

De implementatie is geschreven in Python met behulp van het TensorFlow machine learning-platform en wordt gedistribueerd onder de gratis MPL 2.0-licentie. De baan Het wordt ondersteund op Linux, Android, macOS en Windows. Er zijn voldoende prestaties om de motor te gebruiken op LePotato-, Raspberry Pi 3 en Raspberry Pi 4-kaarten.

DesdeLinux

DeepSpeech: Mozilla's spraakherkenningsengine

Over DeepSpeech

Over de nieuwe versie van DeepSpeech

Laat je reactie achter Antwoord annuleren