Mozilla præsenterer DeepSpeech 0.9 talegenkendelsesmotor

Lancering er offentliggjort stemmegenkendelsesmotor DeepSpeech 0.9 udviklet af Mozilla, som implementerer arkitekturen i stemmegenkendelse med samme navn foreslået af Baidu-forskere.

Implementeringen er skrevet i Python ved hjælp af maskinlæringsplatformen TensorFlow og distribueres under den gratis MPL 2.0-licens.

Om DeepSpeech

DeepSpeech består af to undersystemer: en akustisk model og en dekoder. Den akustiske model bruger dybe maskinlæringsteknikker til at beregne sandsynligheden for, at visse tegn er til stede i inputlyden.

Dekoderen bruger en strålesøgealgoritme til at omdanne karakterens sandsynlighedsdata til en tekstrepræsentation. DeepSpeech er meget enklere end traditionelle systemer og giver samtidig en højere kvalitet af anerkendelse i nærvær af fremmed støj.

Udviklingen bruger ikke traditionelle akustiske modeller og begrebet fonemer; i stedet anvendes et veloptimeret neuralt netværksbaseret maskinlæringssystem, som eliminerer behovet for at udvikle separate komponenter til at modellere forskellige anomalier såsom støj, ekko og taleegenskaber.

Sættet tilbyder uddannede modeller, eksempler på lydfiler og kommandolinjegenkendelsesværktøjer.

Den færdige model leveres kun til engelsk og kinesisk. På andre sprog kan du selv lære systemet i henhold til vedlagte instruktioner ved hjælp af stemmedata indsamlet af Common Voice-projektet.

Hvornår den brugsklare model af det engelske sprog, der tilbydes til download, bruges niveauet for genkendelsesfejl i DeepSpeech er 7.06%, når det evalueres ved hjælp af LibriSpeech-testpakken.

Til sammenligning estimeres fejlprocenten for menneskelig genkendelse til 5,83%.

I den foreslåede model opnås det bedste genkendelsesresultat med en ren optagelse af en mandlig stemme med en amerikansk accent i et miljø uden fremmede lyde.

Ifølge forfatteren af Vosk Continuous Speech Recognition Library er ulemperne ved Common Voice-sættet ensidigheden af talematerialet (overvægt hos mænd i alderen 20 til 30 og manglen på materiale med stemmen til kvinder, børn og ældre), manglen på variabilitet i ordforråd (gentagelse af de samme sætninger) og distribution af MP3-optagelser, der er tilbøjelige til forvrængning.

Ulemper ved DeepSpeech inkluderer dårlig ydelse og det høje hukommelsesforbrug i dekoderen samt vigtige ressourcer til at træne modellen (Mozilla bruger et system med 8 Quadro RTX 6000 GPU'er med 24 GB VRAM i hver enkelt).

Ulempen ved denne tilgang er, at til anerkendelse og træning af et neuralt netværk af høj kvalitet, DeepSpeech-motoren kræver en stor mængde data heterogen dikteret under reelle forhold af forskellige stemmer og i nærværelse af naturlige lyde.

Disse data er udarbejdet af Common Voice-projektet oprettet i Mozilla, som giver et verificeret datasæt med 1469 timer på engelsk, 692 på tysk, 554 på fransk, 105 timer på russisk og 22 timer på ukrainsk.

Ved træning af den endelige engelske model for DeepSpeech, ud over Common Voice, bruges data fra LibriSpeech-, Fisher- og Switchboard-projekterne samt ca. 1700 timers optagelser af transkriberede radioprogrammer.

Mellem ændringerne i den nye gren, muligheden for at tvinge ordens vægt fremhæves valgt under afkodningsprocessen.

Det fremhæver også understøttelsen af Electron 9.2-platformen og en valgfri implementering af lagnormaliseringsmekanismen (Layer Norm), når du træner det neurale netværk.

Download og hent

Ydelsen er tilstrækkelig til at bruge motoren i LePotato, Raspberry Pi 3 og Raspberry Pi 4-kort såvel som i Google Pixel 2, Sony Xperia Z Premium og Nokia 1.3 smartphones.

Klar moduler tilbydes til brug for Python, NodeJS, C ++ og .NET til at integrere talegenkendelsesfunktioner i dine programmer (tredjepartsudviklere har separat forberedt moduler til Rust, Go og V).

DesdeLinux

Mozilla introducerer DeepSpeech 0.9 Speech Recognition Engine

Om DeepSpeech

Download og hent

Efterlad din kommentar Annuller svar