Mozilla introduceert DeepSpeech 0.9 spraakherkenningsengine

Diepe spraak1

Lancering is gepubliceerd spraakherkenningsengine DeepSpeech 0.9 ontwikkeld door Mozilla, die de architectuur van spraakherkenning met dezelfde naam voorgesteld door Baidu-onderzoekers.

De implementatie is geschreven in Python met het machine learning-platform TensorFlow en wordt gedistribueerd onder de gratis MPL 2.0-licentie.

Over DeepSpeech

DeepSpeech bestaat uit twee subsystemen: een akoestisch model en een decoder. Het akoestische model maakt gebruik van deep machine learning-technieken om de kans te berekenen dat bepaalde karakters aanwezig zijn in het invoergeluid.

De decoder gebruikt een straalzoekalgoritme om de karakterwaarschijnlijkheidsgegevens om te zetten in een tekstuele weergave. DeepSpeech is veel eenvoudiger dan traditionele systemen en biedt tegelijkertijd een hogere kwaliteit van herkenning bij externe ruis.

De ontwikkeling maakt geen gebruik van traditionele akoestische modellen en het concept van fonemen; in plaats daarvan wordt een goed geoptimaliseerd op neuraal netwerk gebaseerd machine learning-systeem gebruikt, waardoor het niet meer nodig is om afzonderlijke componenten te ontwikkelen om verschillende anomalieën te modelleren, zoals ruis, echo en spraakeigenschappen.

uitrusting biedt getrainde modellen, voorbeeldgeluidsbestanden en opdrachtregelherkenningstools.

Het afgewerkte model wordt alleen geleverd voor Engels en Chinees. Voor andere talen kunt u het systeem zelf leren volgens de bijgevoegde instructies, met behulp van de spraakgegevens die zijn verzameld door het Common Voice-project.

Wanneer het gebruiksklare model van de Engelse taal dat wordt aangeboden om te downloaden wordt gebruikt, het niveau van herkenningsfouten in DeepSpeech is 7.06% bij evaluatie met de LibriSpeech-testsuite.

Ter vergelijking: het foutenpercentage bij menselijke herkenning wordt geschat op 5,83%.

In het voorgestelde model wordt het beste herkenningsresultaat bereikt met een zuivere opname van een mannelijke stem met een Amerikaans accent in een omgeving zonder externe geluiden.

Volgens de auteur van de Vosk Continuous Speech Recognition Library zijn de nadelen van de Common Voice-set de eenzijdigheid van het spraakmateriaal (het overwicht van mannen van 20 tot 30 jaar en het gebrek aan materiaal met de stem van vrouwen, kinderen en ouderen), het gebrek aan vocabulaire variabiliteit (herhaling van dezelfde zinnen) en de distributie van mp3-opnames die vatbaar zijn voor vervorming.

Nadelen van DeepSpeech zijn onder meer slechte prestaties en het hoge geheugengebruik in de decoder, evenals belangrijke bronnen om het model te trainen (Mozilla gebruikt een systeem met 8 Quadro RTX 6000 GPU's met elk 24GB VRAM).

De keerzijde van deze aanpak is dat voor hoogwaardige herkenning en training van een neuraal netwerk, de DeepSpeech-engine vereist een grote hoeveelheid gegevens heterogeen gedicteerd in reële omstandigheden door verschillende stemmen en in aanwezigheid van natuurlijke geluiden.

Deze gegevens zijn samengesteld door het Common Voice-project gemaakt in Mozilla, dat een geverifieerde dataset biedt met 1469 uur in het Engels, 692 in het Duits, 554 in het Frans, 105 uur in het Russisch en 22 uur in het Oekraïens.

Bij het trainen van het laatste Engelse model voor DeepSpeech worden naast Common Voice ook gegevens van de LibriSpeech-, Fisher- en Switchboard-projecten gebruikt, evenals ongeveer 1700 uur aan getranscribeerde radioprogramma-opnames.

Tussen de wijzigingen in de nieuwe tak, de mogelijkheid om het gewicht van de woorden te forceren wordt benadrukt geselecteerd tijdens het decoderingsproces.

Het benadrukt ook de ondersteuning voor het Electron 9.2-platform en een optionele implementatie van het laagnormalisatiemechanisme (Layer Norm) bij het trainen van het neurale netwerk.

Download en ontvang

De prestaties zijn voldoende om de motor te gebruiken in LePotato-, Raspberry Pi 3- en Raspberry Pi 4-kaarten, evenals in de Google Pixel 2, Sony Xperia Z Premium en Nokia 1.3-smartphones.

Klaar modules aangeboden te gebruiken voor Python, NodeJS, C ++ en .NET om spraakherkenningsfuncties in uw programma's te integreren (externe ontwikkelaars hebben afzonderlijk voorbereide modules voor Rust, Go en V).


Wees de eerste om te reageren

Laat je reactie achter

Uw e-mailadres wordt niet gepubliceerd. Verplichte velden zijn gemarkeerd met *

*

*

  1. Verantwoordelijk voor de gegevens: Miguel Ángel Gatón
  2. Doel van de gegevens: Controle SPAM, commentaarbeheer.
  3. Legitimatie: uw toestemming
  4. Mededeling van de gegevens: De gegevens worden niet aan derden meegedeeld, behalve op grond van wettelijke verplichting.
  5. Gegevensopslag: database gehost door Occentus Networks (EU)
  6. Rechten: u kunt uw gegevens op elk moment beperken, herstellen en verwijderen.