Mozilla présente le moteur de reconnaissance vocale DeepSpeech 0.9

DeepSpeech1

Le lancement a été publié moteur de reconnaissance vocale DeepSpeech 0.9 développé par Mozilla, qui implémente l'architecture de reconnaissance vocale du même nom proposé par les chercheurs de Baidu.

La mise en oeuvre est écrit en Python en utilisant la plateforme d'apprentissage automatique TensorFlow et est distribué sous la licence gratuite MPL 2.0.

À propos de DeepSpeech

DeepSpeech se compose de deux sous-systèmes: un modèle acoustique et un décodeur. Le modèle acoustique utilise des techniques d'apprentissage automatique en profondeur pour calculer la probabilité que certains caractères soient présents dans le son d'entrée.

Le décodeur utilise un algorithme de recherche de rayon pour transformer les données de probabilité de caractère en une représentation textuelle. DeepSpeech est beaucoup plus simple que les systèmes traditionnels et offre en même temps une meilleure qualité de reconnaissance en présence de bruit étranger.

Le développement n'utilise pas les modèles acoustiques traditionnels et le concept de phonèmes; au lieu de cela, un système d'apprentissage automatique basé sur un réseau neuronal bien optimisé est utilisé, ce qui élimine le besoin de développer des composants séparés pour modéliser diverses anomalies telles que les caractéristiques de bruit, d'écho et de parole.

El Kit propose des modèles formés, des échantillons de fichiers sonores et des outils de reconnaissance de ligne de commande.

Le modèle fini est fourni pour l'anglais et le chinois uniquement. Pour les autres langues, vous pouvez apprendre le système vous-même selon les instructions ci-jointes, en utilisant les données vocales collectées par le projet Common Voice.

Quand le modèle prêt à l'emploi de la langue anglaise proposé au téléchargement est utilisé, le niveau d'erreurs de reconnaissance dans DeepSpeech est de 7.06% lorsqu'il est évalué à l'aide de la suite de tests LibriSpeech.

A titre de comparaison, le taux d'erreur de reconnaissance humaine est estimé à 5,83%.

Dans le modèle proposé, le meilleur résultat de reconnaissance est obtenu avec un enregistrement propre d'une voix masculine avec un accent américain dans un environnement sans bruits parasites.

Selon l'auteur de la bibliothèque de reconnaissance vocale continue Vosk, les inconvénients de l'ensemble Common Voice sont le caractère unilatéral du matériel de parole (la prédominance des hommes âgés de 20 à 30 ans et le manque de matériel avec la voix des femmes, des enfants et personnes âgées), le manque de variabilité du vocabulaire (répétition des mêmes phrases) et la distribution d'enregistrements MP3 sujets à des distorsions.

Les inconvénients de DeepSpeech incluent des performances médiocres et la consommation élevée de mémoire dans le décodeur, ainsi que des ressources importantes pour entraîner le modèle (Mozilla utilise un système avec 8 GPU Quadro RTX 6000 avec 24 Go de VRAM dans chacun).

L'inconvénient de cette approche est que pour une reconnaissance et une formation de haute qualité d'un réseau neuronal, le moteur DeepSpeech nécessite une grande quantité de données hétérogène dicté en conditions réelles par différentes voix et en présence de bruits naturels.

Ces données sont compilées par le projet Common Voice créé dans Mozilla, qui fournit un ensemble de données vérifiées avec 1469 heures en anglais, 692 en allemand, 554 en français, 105 heures en russe et 22 heures en ukrainien.

Lors de la formation du modèle anglais final pour DeepSpeech, en plus de Common Voice, les données des projets LibriSpeech, Fisher et Switchboard sont également utilisées, ainsi qu'environ 1700 heures d'enregistrements de programmes radio transcrits.

Entre les changements dans la nouvelle branche, la possibilité de forcer le poids des mots est mise en évidence sélectionné pendant le processus de décodage.

Il met également en évidence la prise en charge de la plate-forme Electron 9.2 et une implémentation facultative du mécanisme de normalisation de couche (norme de couche) lors de la formation du réseau neuronal.

Téléchargez et obtenez

Les performances sont suffisantes pour utiliser le moteur dans les cartes LePotato, Raspberry Pi 3 et Raspberry Pi 4, ainsi que dans les smartphones Google Pixel 2, Sony Xperia Z Premium et Nokia 1.3.

Des modules prêts sont offerts à utiliser pour Python, NodeJS, C ++ et .NET pour intégrer des fonctions de reconnaissance vocale dans vos programmes (les développeurs tiers ont préparé séparément des modules pour Rust, Go et V).


Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont marqués avec *

*

*

  1. Responsable des données: Miguel Ángel Gatón
  2. Finalité des données: Contrôle du SPAM, gestion des commentaires.
  3. Légitimation: votre consentement
  4. Communication des données: Les données ne seront pas communiquées à des tiers sauf obligation légale.
  5. Stockage des données: base de données hébergée par Occentus Networks (EU)
  6. Droits: à tout moment, vous pouvez limiter, récupérer et supprimer vos informations.