S'ha publicat el llançament de l'motor de reconeixement de veu DeepSpeech 0.9 desenvolupat per Mozilla, Que implementa l'arquitectura de reconeixement de veu de el mateix nom proposta per investigadors de Baidu.
la implementació està escrita en Python utilitzant la plataforma d'aprenentatge automà tic TensorFlow i es distribueix sota la llicència gratuïta MPL 2.0.
sobre DeepSpeech
DeepSpeech consta de dos subsistemes: un model acústic i un descodificador. El model acústic utilitza tècniques d'aprenentatge automà tic profund per calcular la probabilitat que certs carà cters estiguin presents en el so d'entrada.
El descodificador utilitza un algoritme de recerca de raigs per transformar les dades de probabilitat de carà cters en una representació textual. DeepSpeech és molt més simple que els sistemes tradicionals i a el mateix temps proporciona una major qualitat de reconeixement en presència de soroll estrany.
El desenvolupament no utilitza models acústics tradicionals i el concepte de fonemes; en el seu lloc, s'utilitza un sistema d'aprenentatge automà tic bé optimitzat basat en una xarxa neuronal, que elimina la necessitat de desenvolupar components separats per modelar diverses anomalies com el soroll, el ressò i les caracterÃstiques de la parla.
el kit ofereix models entrenats, arxius de so de mostra i eines de reconeixement de lÃnia d'ordres.
El model acabat es subministra només per a anglès i xinès. Per a altres idiomes, pot aprendre el sistema vostè mateix d'acord amb les instruccions adjuntes, utilitzant les dades de veu recopilades pel projecte Common Voice.
Quan s'utilitza el model llest per usar d'l'idioma anglès que s'ofereix per descarregar, el nivell d'errors de reconeixement en DeepSpeech és de l'7.06% quan s'avalua mitjançant el conjunt de proves LibriSpeech.
A tall de comparació, la taxa d'error de reconeixement humà s'estima en 5,83%.
En el model proposat, el millor resultat de reconeixement s'aconsegueix amb un enregistrament neta d'una veu masculina amb accent americà en un ambient sense sorolls estranys.
Segons l'autor de la biblioteca de reconeixement de veu continu de Vosk, els desavantatges del conjunt Common Voice són la unilateralitat de l'material de veu (el predomini d'homes de 20 a 30 anys i la manca de material amb la veu de dones, nens i gent gran), la manca de variabilitat de l'vocabulari (repetició de les mateixes frases) i la distribució d'enregistraments MP3 propenses a la distorsió.
Entre els inconvenients de DeepSpeech es troben el baix rendiment i l'alt consum de memòria en el descodificador, aixà com importants recursos per entrenar el model (Mozilla fa servir un sistema amb 8 GPU Quadro RTX 6000 amb 24GB VRAM en cadascuna).
El desavantatge d'aquest enfocament és que per obtenir un reconeixement i entrenament d'alta qualitat d'una xarxa neuronal, El motor DeepSpeech requereix una gran quantitat de dades heterogenis dictats en condicions reals per diferents veus i en presència de sorolls naturals.
Aquestes dades són recopilades pel projecte Common Voice creat en Mozilla, que proporciona un conjunt de dades verificat amb 1469 hores en anglès, 692 en alemany, 554 en francès, 105 hores en rus i 22 hores en ucraïnès.
A l'entrenar el model final en anglès per DeepSpeech, a més de Common Voice, s'utilitzen addicionalment dades dels projectes LibriSpeech, Fisher i Switchboard, aixà com aproximadament 1700 hores d'enregistraments de programes de rà dio transcrits.
Entre els canvis en la nova branca, es destaca la possibilitat de forçar el pes de les paraules seleccionades durant el procés de descodificació.
També es destaca el suport per a la plataforma Electron 9.2 i una implementació opcional de el mecanisme de normalització de capes (Layer Norm) a l'entrenar la xarxa neuronal.
Descarregar i obtenir
El rendiment és suficient per utilitzar el motor en plaques LePotato, Raspberry Pi 3 i Raspberry Pi 4, aixà com en els telèfons intel·ligents Google Pixel 2, Sony Xperia Z Premium i Nokia 1.3.
S'ofereixen mòduls llestos per utilitzar per Python, NodeJS, C ++ i .NET per integrar funcions de reconeixement de veu en els seus programes (els desenvolupadors de tercers tenen mòduls preparats per separat per a Rust, Go i V).