Mozilla presenta il motore di riconoscimento vocale DeepSpeech 0.9

Discorso profondo1

Il lancio è stato pubblicato motore di riconoscimento vocale DeepSpeech 0.9 sviluppato da Mozilla, che implementa l'architettura di riconoscimento vocale con lo stesso nome proposto dai ricercatori Baidu.

L'implemento è scritto in Python usando la piattaforma di machine learning TensorFlow ed è distribuito sotto la licenza gratuita MPL 2.0.

Informazioni su DeepSpeech

DeepSpeech è costituito da due sottosistemi: un modello acustico e un decoder. Il modello acustico utilizza tecniche di apprendimento automatico profondo per calcolare la probabilità che determinati caratteri siano presenti nel suono in ingresso.

Il decodificatore utilizza un algoritmo di ricerca dei raggi per trasformare i dati di probabilità del carattere in una rappresentazione testuale. DeepSpeech è molto più semplice dei sistemi tradizionali e allo stesso tempo fornisce una maggiore qualità di riconoscimento in presenza di rumori estranei.

Lo sviluppo non utilizza modelli acustici tradizionali e il concetto di fonemi; invece, viene utilizzato un sistema di apprendimento automatico basato su rete neurale ben ottimizzato, che elimina la necessità di sviluppare componenti separati per modellare varie anomalie come rumore, eco e caratteristiche del parlato.

El kit offre modelli addestrati, file audio di esempio e strumenti di riconoscimento della riga di comando.

Il modello finito viene fornito solo per inglese e cinese. Per le altre lingue è possibile apprendere autonomamente il sistema secondo le istruzioni allegate, utilizzando i dati vocali raccolti dal progetto Common Voice.

Quando viene utilizzato il modello pronto per l'uso della lingua inglese offerto per il download, il livello di errori di riconoscimento in DeepSpeech è del 7.06% se valutato utilizzando la suite di test LibriSpeech.

Per confronto, il tasso di errore nel riconoscimento umano è stimato al 5,83%.

Nel modello proposto, il miglior risultato di riconoscimento si ottiene con una registrazione pulita di una voce maschile con accento americano in un ambiente senza rumori estranei.

Secondo l'autore della Vosk Continuous Speech Recognition Library, gli svantaggi del set Common Voice sono l'unilateralità del materiale vocale (la predominanza di uomini tra i 20 ei 30 anni e la mancanza di materiale con la voce di donne, bambini e anziani), la mancanza di variabilità del vocabolario (ripetizione delle stesse frasi) e la distribuzione di registrazioni MP3 soggette a distorsioni.

Gli svantaggi di DeepSpeech includono prestazioni scadenti e l'elevato consumo di memoria nel decoder, nonché importanti risorse per addestrare il modello (Mozilla utilizza un sistema con 8 GPU Quadro RTX 6000 con 24 GB di VRAM ciascuna).

Lo svantaggio di questo approccio è quello per il riconoscimento e l'addestramento di alta qualità di una rete neurale, il motore DeepSpeech richiede una grande quantità di dati eterogeneo dettato in condizioni reali da voci diverse e in presenza di rumori naturali.

Questi dati sono compilati dal progetto Common Voice creato in Mozilla, che fornisce un set di dati verificato con 1469 ore in inglese, 692 in tedesco, 554 in francese, 105 ore in russo e 22 ore in ucraino.

Durante l'addestramento del modello inglese finale per DeepSpeech, oltre a Common Voice, vengono utilizzati anche i dati dei progetti LibriSpeech, Fisher e Switchboard, nonché circa 1700 ore di registrazioni di programmi radiofonici trascritti.

Tra i cambiamenti nel nuovo ramo, si evidenzia la possibilità di forzare il peso delle parole selezionato durante il processo di decodifica.

Evidenzia inoltre il supporto per la piattaforma Electron 9.2 e un'implementazione opzionale del meccanismo di normalizzazione dei livelli (Layer Norm) durante l'addestramento della rete neurale.

Scarica e ottieni

Le prestazioni sono sufficienti per utilizzare il motore nelle schede LePotato, Raspberry Pi 3 e Raspberry Pi 4, nonché negli smartphone Google Pixel 2, Sony Xperia Z Premium e Nokia 1.3.

Sono offerti moduli pronti da usare per Python, NodeJS, C ++ e .NET per integrare le funzioni di riconoscimento vocale nei tuoi programmi (sviluppatori di terze parti hanno moduli preparati separatamente per Rust, Go e V).


Lascia un tuo commento

L'indirizzo email non verrà pubblicato. I campi obbligatori sono contrassegnati con *

*

*

  1. Responsabile dei dati: Miguel Ángel Gatón
  2. Scopo dei dati: controllo SPAM, gestione commenti.
  3. Legittimazione: il tuo consenso
  4. Comunicazione dei dati: I dati non saranno oggetto di comunicazione a terzi se non per obbligo di legge.
  5. Archiviazione dati: database ospitato da Occentus Networks (UE)
  6. Diritti: in qualsiasi momento puoi limitare, recuperare ed eliminare le tue informazioni.