DeepSpeech: el motor de reconocimiento de voz de Mozilla

I øjeblikket fungerer Mozilla ikke kun i sin populære webbrowser, men har også en række projekter under sin paraply, hvoraf I dag vil vi tale om DeepSpeech. Dette er en talegenkendelsesmotor der implementerer den eponyme talegenkendelsesarkitektur, som Baidu-forskerne har foreslået.

DeepSpeech skiller sig ud for at tilbyde forskellige uddannede modeller, prøve lydfiler og kommandolinjegenkendelsesværktøjer til at integrere talegenkendelsesfunktionen i dine programmer. For det brugsklare moduler leveres til Python, NodeJS, C ++ og .NET, selvom eksterne udviklere også forberedte separate moduler til Rust og Go.

Den færdige model leveres kun til det engelske sprog, men for andre sprog i henhold til vedlagte instruktioner kan systemet trænes ved hjælp af stemmedata, der er indsamlet af Common Voice-projektet.

Om DeepSpeech

DeepSpeech er meget enklere end traditionelle systemer og på samme tid giver det en højere kvalitet af genkendelse i nærvær af fremmed støj.

Udviklingen bruger ikke traditionelle akustiske modeller og begrebet fonemer; i stedet, bruge et maskinlæringssystem Godt optimeret neuralt netværksbaseret, hvilket eliminerer behovet for at udvikle separate komponenter til at modellere forskellige afvigelser såsom støj, ekko og taleegenskaber.

Bagsiden af denne tilgang er at få højkvalitetsgenkendelse og træning af et neuralt netværk, motoren DeepSpeech kræver en stor mængde data heterogen dikteret under reelle forhold af forskellige stemmer og i nærvær af naturlig støj.

Common Voice-projektet oprettet i Mozilla er ansvarligt for at indsamle sådanne data og leverer et dokumenteret datasæt med 780 timer på engelsk, 325 på tysk, 173 på fransk og 27 timer på russisk.

Det endelige mål fra Common Voice-projektet er akkumuleringen af 10 tusind timer med optagelser af forskellige udtaler sætninger, der er typiske for menneskelig tale, som opnår et acceptabelt niveau af genkendelsesfejl. I den nuværende form har projektdeltagerne allerede undervist i alt 4.3 tusind timer, hvoraf 3.5 tusind har bestået testen.

I undervisningen i den endelige engelske model for DeepSpeech blev der brugt 3816 timers tale bortset fra Common Voice, der omfatter projektdata fra LibriSpeech, Fisher og Switchboard, samt ca. 1700 timers transkriberede radioprogramoptagelser.

Når du bruger den engelske model, der er klar til download, niveauet for genkendelsesfejl i DeepSpeech er 7,5% når den evalueres med LibriSpeech testpakken. Til sammenligning anslås niveauet for fejl i menneskelig anerkendelse til 5.83%.

DeepSpeech består af to undersystemer: en akustisk model og en dekoder. Den akustiske model bruger dybe maskinlæringsmetoder til at beregne sandsynligheden for tilstedeværelsen af visse tegn i inputlyden. Dekoderen bruger en strålesøgealgoritme til at konvertere karakterens sandsynlighedsdata til en tekstrepræsentation.

Om den nye version af DeepSpeech

DeepSpeech er i øjeblikket i sin version 0.6 hvor følgende ændringer er fremhævet:

Der foreslås en ny transmissionsdekoder, der giver større lydhørhed og ikke afhænger af størrelsen på de behandlede lyddata.
Der er foretaget ændringer i API'en, og der er gjort arbejde på at samle funktionsnavne. Funktioner er blevet tilføjet for at opnå yderligere metadata om timingen, hvilket ikke kun giver mulighed for at modtage en tekstrepræsentation i output, men også for at spore bindingen af individuelle tegn og sætninger til en position i lydstrømmen.
Støtte til brug af CuDNN-biblioteket til at optimere arbejde med tilbagevendende neurale netværk (RNN) er blevet føjet til værktøjssættet til træningsmoduler.
Minimumskravene til TensorFlow-versionen er hævet fra 1.13.1 til 1.14.0.
Tilføjet understøttelse af TensorFlow Lite Light Edition, som reducerer DeepSpeech-pakkestørrelsen fra 98 MB til 3.7 MB.
Sprogmodellen er blevet overført til et andet datastrukturformat, så filer kan allokeres til hukommelse ved opstartstidspunktet.
Support til det ældre format er afbrudt.

Implementeringen er skrevet i Python ved hjælp af TensorFlow machine learning platform og distribueres under den gratis MPL 2.0 licens. Jobbet Det understøttes på Linux, Android, macOS og Windows. Der er ydeevne nok til at bruge motoren på LePotato, Raspberry Pi 3 og Raspberry Pi 4 boards.

DesdeLinux

DeepSpeech: Mozillas talegenkendelsesmotor

Om DeepSpeech

Om den nye version af DeepSpeech

Efterlad din kommentar Annuller svar