Mozilla Introduce DeepSpeech 0.9 Speech Recognition Engine

Discursu Profondu 1

U lanciu hè statu publicatu mutore di ricunniscenza vocale DeepSpeech 0.9 sviluppatu da Mozilla, chì implementa l'architettura di speech recognition di u listessu nome prupostu da i circadori Baidu.

L'implementazione hè scrittu in Python aduprendu a piattaforma di apprendimentu machine TensorFlow è hè distribuitu sottu a licenza MPL 2.0 gratuita.

À propositu di DeepSpeech

DeepSpeech si compone di dui sottosistemi: un mudellu acusticu è un decodificatore. U mudellu acusticu utilizza tecniche di apprendimentu machine profonde per calculà a probabilità chì certi caratteri sianu prisenti in u sonu d'entrata.

U decodificatore utilizza un algoritmu di ricerca di raghji per trasfurmà i dati di probabilità di caratteri in una rappresentazione testuale. DeepSpeech hè assai più simplice di i sistemi tradiziunali è à u listessu tempu furnisce una qualità più alta di ricunniscenza in presenza di rumuri stranieri.

U sviluppu ùn adopra micca i mudelli acustichi tradiziunali è u cuncettu di fonemi; invece, un sistema di apprendimentu machine basatu in rete neurale ben ottimizatu hè adupratu, chì elimina a necessità di sviluppà cumpunenti separati per mudellà varie anomalie cume u rumu, l'eco è e caratteristiche di a parolla.

U kit offre mudelli addestrati, campionu di fugliali sonori è strumenti di ricunniscenza in linea di cummanda.

U mudellu finitu hè furnitu solu per Inglese è Cinese. Per altre lingue, pudete amparà u sistema voi stessu secondu e struzzioni annesse, aduprendu i dati vocali raccolti da u prugettu Common Voice.

Quandu hè adupratu u mudellu prontu à aduprà di a lingua inglese pruposta per u scaricamentu, u livellu di errori di ricunniscenza in DeepSpeech hè di 7.06% quandu hè valutatu cù a suite di test LibriSpeech.

Per u paragone, a percentuale di errore di ricunniscenza umana hè stimata à 5,83%.

In u mudellu prupostu, u megliu risultatu di ricunniscenza si ottiene cù un registru pulitu di una voce maschile cù accentu americanu in un ambiente senza rumori stranieri.

Sicondu l'autore di a Vosk Continuous Speech Recognition Library, i svantaghji di u gruppu Common Voice sò l'unilateralità di u materiale di parlà (a predominanza di l'omi in i so 20s è 30s è a mancanza di materiale cù a voce di donne, zitelli è anziani), a mancanza di variabilità di u vocabulariu (ripetizione di e stesse frasi) è a distribuzione di registrazioni MP3 propensi à distorsioni.

I svantaghji di DeepSpeech includenu prestazioni scarse è l'altru cunsumu di memoria in u decodificatore, è ancu risorse impurtanti per furmà u mudellu (Mozilla utilizza un sistema cù 8 GPU Quadro RTX 6000 cù 24 GB VRAM in ognuna).

U svantaghju di questu approcciu hè chì per ricunniscenza è furmazione di alta qualità di una rete neurale, u mutore DeepSpeech richiede una grande quantità di dati eterogeneu dettatu in cundizioni reali da diverse voci è in presenza di rumori naturali.

Questi dati sò compilati da u prughjettu Common Voice creatu in Mozilla, chì furnisce un set di dati verificatu cù 1469 ore in inglese, 692 in tedesco, 554 in francese, 105 ore in russu è 22 ore in ucrainu.

Quandu furmate u mudellu inglese finale per DeepSpeech, in più di Common Voice, i dati di i prughjetti LibriSpeech, Fisher è Switchboard sò aduprati in più, è ancu circa 1700 ore di registrazioni di prugrammi radio trascritti.

Trà i cambiamenti in a nova filiale, hè messa in risaltu a pussibilità di furzà u pesu di e parolle selezziunatu durante u prucessu di decodifica.

Mette in risaltu dinò u sustegnu à a piattaforma Electron 9.2 è una implementazione opzionale di u meccanismu di normalizazione di u stratu (Norma di Livellu) quandu si allena a rete neurale.

Scaricate è uttene

A prestazione hè abbastanza per aduprà u mutore in LePotato, Raspberry Pi 3 è Raspberry Pi 4, cum'è in Google Pixel 2, Sony Xperia Z Premium è Nokia 1.3 smartphones.

Moduli pronti sò offerti da aduprà per Python, NodeJS, C ++, è .NET per integrà e funzioni di ricunniscenza vocale in i vostri prugrammi (sviluppatori di terze parti anu preparatu separatamente moduli per Rust, Go è V).


U cuntenutu di l'articulu aderisce à i nostri principii di etica edituriale. Per signalà un errore cliccate quì.

Sianu the first to comment

Lasciate u vostru cummentariu

U vostru indirizzu email ùn esse publicatu.

*

*

  1. Responsabile di i dati: Miguel Ángel Gatón
  2. Scopu di i dati: Cuntrolla SPAM, gestione di cumenti.
  3. Legitimazione: U vostru accunsentu
  4. Cumunicazione di i dati: I dati ùn seranu micca cumunicati à terzi, eccettu per obbligazione legale.
  5. Archiviazione di dati: Base di dati ospitata da Occentus Networks (UE)
  6. Diritti: In ogni mumentu pudete limità, recuperà è cancellà e vostre informazioni.