Mozilla presenterer DeepSpeech 0.9 talegjenkjenningsmotoren

Lansering er publisert stemmegjenkjenningsmotor DeepSpeech 0.9 utviklet av Mozilla, som implementerer arkitekturen til stemmegjenkjenning med samme navn foreslått av Baidu-forskere.

Implementeringen er skrevet i Python ved hjelp av maskinlæringsplattformen tensorflow og distribueres under gratis MPL 2.0-lisens.

Om DeepSpeech

DeepSpeech består av to delsystemer: en akustisk modell og en dekoder. Den akustiske modellen bruker dype maskinlæringsteknikker for å beregne sannsynligheten for at visse tegn er tilstede i inngangslyden.

Dekoderen bruker en strålesøkealgoritme for å transformere karakterens sannsynlighetsdata til en tekstlig fremstilling. DeepSpeech er mye enklere enn tradisjonelle systemer og gir samtidig en høyere kvalitet på gjenkjenning i nærvær av uvanlig støy.

Utviklingen bruker ikke tradisjonelle akustiske modeller og begrepet fonemer; i stedet brukes et godt optimalisert nevralt nettverksbasert maskinlæringssystem, som eliminerer behovet for å utvikle separate komponenter for å modellere forskjellige avvik som støy, ekko og taleegenskaper.

Settet tilbyr trente modeller, eksempler på lydfiler og gjenkjenningsverktøy for kommandolinje.

Den ferdige modellen leveres kun for engelsk og kinesisk. For andre språk kan du lære systemet selv i henhold til vedlagte instruksjoner ved hjelp av stemmedataene som er samlet inn av Common Voice-prosjektet.

Når den bruksklare modellen for det engelske språket som tilbys for nedlasting brukes, nivået på gjenkjenningsfeil i DeepSpeech er 7.06% når det blir evaluert ved hjelp av LibriSpeech test suite.

Til sammenligning er feilrate for menneskelig gjenkjenning estimert til 5,83%.

I den foreslåtte modellen oppnås det beste gjenkjennelsesresultatet med et rent opptak av en mannstemme med en amerikansk aksent i et miljø uten fremmede lyder.

I følge forfatteren av Vosk Continuous Speech Recognition Library er ulempene med Common Voice-settet ensidigheten av talematerialet (overvekt av menn i 20- og 30-årene og mangel på materiale med stemmen til kvinner, barn og eldre), mangelen på vokabularvariabilitet (repetisjon av de samme setningene) og distribusjon av MP3-opptak som er utsatt for forvrengning.

Ulemper med DeepSpeech inkluderer dårlig ytelse og det høye minneforbruket i dekoderen, samt viktige ressurser for å trene modellen (Mozilla bruker et system med 8 Quadro RTX 6000 GPUer med 24 GB VRAM i hver og en).

Ulempen med denne tilnærmingen er at for høykvalitets anerkjennelse og opplæring av et nevralt nettverk, DeepSpeech-motoren krever mye data heterogen diktert under reelle forhold av forskjellige stemmer og i nærvær av naturlige lyder.

Disse dataene er samlet av Common Voice-prosjektet opprettet i Mozilla, som gir et bekreftet datasett med 1469 timer på engelsk, 692 på tysk, 554 på fransk, 105 timer på russisk og 22 timer på ukrainsk.

Når du trener den endelige engelske modellen for DeepSpeech, i tillegg til Common Voice, brukes data fra LibriSpeech, Fisher og Switchboard-prosjektene i tillegg til omtrent 1700 timer med opptak av transkriberte radioprogrammer.

Mellom endringene i den nye grenen, muligheten for å tvinge ordets vekt fremheves valgt under avkodingsprosessen.

Det fremhever også støtten til Electron 9.2-plattformen og en valgfri implementering av lagnormaliseringsmekanismen (Layer Norm) når du trener nevrale nettverk.

Last ned og få

Ytelsen er tilstrekkelig til å bruke motoren i LePotato, Raspberry Pi 3 og Raspberry Pi 4-kort, samt i Google Pixel 2, Sony Xperia Z Premium og Nokia 1.3 smarttelefoner.

Klar moduler tilbys å bruke for Python, NodeJS, C ++ og .NET til å integrere talegjenkjenningsfunksjoner i programmene dine (tredjepartsutviklere har separat utarbeidet moduler for Rust, Go og V).

DesdeLinux

Mozilla introduserer DeepSpeech 0.9 Speech Recognition Engine

Om DeepSpeech

Last ned og få

Legg igjen kommentaren Avbryt svar