U lanciu hè statu publicatu mutore di ricunniscenza vocale DeepSpeech 0.9 sviluppatu da Mozilla, chì implementa l'architettura di speech recognition di u listessu nome prupostu da i circadori Baidu.
L'implementazione hè scrittu in Python aduprendu a piattaforma di apprendimentu machine TensorFlow è hè distribuitu sottu a licenza MPL 2.0 gratuita.
À propositu di DeepSpeech
DeepSpeech si compone di dui sottosistemi: un mudellu acusticu è un decodificatore. U mudellu acusticu utilizza tecniche di apprendimentu machine profonde per calculà a probabilità chì certi caratteri sianu prisenti in u sonu d'entrata.
U decodificatore utilizza un algoritmu di ricerca di raghji per trasfurmà i dati di probabilità di caratteri in una rappresentazione testuale. DeepSpeech hè assai più simplice di i sistemi tradiziunali è à u listessu tempu furnisce una qualità più alta di ricunniscenza in presenza di rumuri stranieri.
U sviluppu ùn adopra micca i mudelli acustichi tradiziunali è u cuncettu di fonemi; invece, un sistema di apprendimentu machine basatu in rete neurale ben ottimizatu hè adupratu, chì elimina a necessità di sviluppà cumpunenti separati per mudellà varie anomalie cume u rumu, l'eco è e caratteristiche di a parolla.
U kit offre mudelli addestrati, campionu di fugliali sonori è strumenti di ricunniscenza in linea di cummanda.
U mudellu finitu hè furnitu solu per Inglese è Cinese. Per altre lingue, pudete amparà u sistema voi stessu secondu e struzzioni annesse, aduprendu i dati vocali raccolti da u prugettu Common Voice.
Quandu hè adupratu u mudellu prontu à aduprà di a lingua inglese pruposta per u scaricamentu, u livellu di errori di ricunniscenza in DeepSpeech hè di 7.06% quandu hè valutatu cù a suite di test LibriSpeech.
Per u paragone, a percentuale di errore di ricunniscenza umana hè stimata à 5,83%.
In u mudellu prupostu, u megliu risultatu di ricunniscenza si ottiene cù un registru pulitu di una voce maschile cù accentu americanu in un ambiente senza rumori stranieri.
Sicondu l'autore di a Vosk Continuous Speech Recognition Library, i svantaghji di u gruppu Common Voice sò l'unilateralità di u materiale di parlà (a predominanza di l'omi in i so 20s è 30s è a mancanza di materiale cù a voce di donne, zitelli è anziani), a mancanza di variabilità di u vocabulariu (ripetizione di e stesse frasi) è a distribuzione di registrazioni MP3 propensi à distorsioni.
I svantaghji di DeepSpeech includenu prestazioni scarse è l'altru cunsumu di memoria in u decodificatore, è ancu risorse impurtanti per furmà u mudellu (Mozilla utilizza un sistema cù 8 GPU Quadro RTX 6000 cù 24 GB VRAM in ognuna).
U svantaghju di questu approcciu hè chì per ricunniscenza è furmazione di alta qualità di una rete neurale, u mutore DeepSpeech richiede una grande quantità di dati eterogeneu dettatu in cundizioni reali da diverse voci è in presenza di rumori naturali.
Questi dati sò compilati da u prughjettu Common Voice creatu in Mozilla, chì furnisce un set di dati verificatu cù 1469 ore in inglese, 692 in tedesco, 554 in francese, 105 ore in russu è 22 ore in ucrainu.
Quandu furmate u mudellu inglese finale per DeepSpeech, in più di Common Voice, i dati di i prughjetti LibriSpeech, Fisher è Switchboard sò aduprati in più, è ancu circa 1700 ore di registrazioni di prugrammi radio trascritti.
Trà i cambiamenti in a nova filiale, hè messa in risaltu a pussibilità di furzà u pesu di e parolle selezziunatu durante u prucessu di decodifica.
Mette in risaltu dinò u sustegnu à a piattaforma Electron 9.2 è una implementazione opzionale di u meccanismu di normalizazione di u stratu (Norma di Livellu) quandu si allena a rete neurale.
Scaricate è uttene
A prestazione hè abbastanza per aduprà u mutore in LePotato, Raspberry Pi 3 è Raspberry Pi 4, cum'è in Google Pixel 2, Sony Xperia Z Premium è Nokia 1.3 smartphones.
Moduli pronti sò offerti da aduprà per Python, NodeJS, C ++, è .NET per integrà e funzioni di ricunniscenza vocale in i vostri prugrammi (sviluppatori di terze parti anu preparatu separatamente moduli per Rust, Go è V).
Sianu the first to comment