Mozilla yntroduseart DeepSpeech 0.9 Spraakherkenningsmotor

DeepSpeech 1

Launch is publisearre stim erkenning motor DeepSpeech 0.9 ûntwikkele troch Mozilla, dy't de arsjitektuer fan ymplementeart sprekkende erkenning mei deselde namme foarsteld troch Baidu-ûndersikers.

De ymplementaasje wurdt skreaun yn Python mei it platfoarm foar learen fan masines TensorFlow en wurdt ferspraat ûnder de fergese MPL 2.0 lisinsje.

Oer DeepSpeech

DeepSpeech bestiet út twa subsystemen: in akoestysk model en in dekoder. It akoestyske model brûkt djippe masine-leartechniken om de kâns te berekkenjen dat bepaalde karakters oanwêzich binne yn it ynfiergeluid.

De dekodearder brûkt in algoritme foar sykjen fan strielen om de gegevens fan karakters te feroarjen yn in tekstuele foarstelling. DeepSpeech is folle ienfâldiger dan tradisjonele systemen en leveret tagelyk in hegere kwaliteit fan erkenning yn 'e oanwêzigens fan frjemde lûd.

De ûntwikkeling brûkt gjin tradisjonele akoestyske modellen en it konsept fan fonemen; ynstee wurdt in goed-optimalisearre neuronale netwurk-basearre masine-learsysteem brûkt, wat de needsaak elimineert om aparte ûnderdielen te ûntwikkeljen om ferskate anomalies te modelearjen lykas lûd-, echo- en spraakkenmerken.

De kit biedt oplaat modellen, foarbyld fan lûdbestannen en ark foar herkenning fan kommando-rigels.

It ôfmakke model wurdt allinich foar Ingelsk en Sineesk levere. Foar oare talen kinne jo it systeem sels leare neffens de byhearrende ynstruksjes, mei de spraakgegevens sammele troch it Common Voice-projekt.

Wannear it ready-to-use model fan 'e Ingelske taal oanbean foar download wurdt brûkt, it nivo fan erkenningsflaters yn DeepSpeech is 7.06% as evaluearre mei de LibriSpeech test suite.

Foar fergeliking wurdt it flaterpersintaazje foar minsklike erkenning rûsd op 5,83%.

Yn it foarstelde model wurdt it bêste erkenningresultaat berikt mei in skjinne opname fan in manlike stim mei in Amerikaansk aksint yn in omjouwing sûnder frjemde lûden.

Neffens de auteur fan 'e Vosk Continuous Speech Recognition Library binne de neidielen fan' e Common Voice-set de iensidichheid fan it spraakmateriaal (de oerhearsking fan manlju yn 'e jierren 20 en 30 en it gebrek oan materiaal mei de stim fan froulju, bern en âlderen), it gebrek oan fariabiliteit fan wurdskat (werhelling fan deselde útdrukkingen) en de ferdieling fan MP3-opnames dy't gefoelich binne foar ferfoarming.

Neidielen fan DeepSpeech omfetsje minne prestaasjes en it hege ûnthâldferbrûk yn 'e dekoder, lykas wichtige boarnen om it model te trenen (Mozilla brûkt in systeem mei 8 Quadro RTX 6000 GPU's mei 24 GB VRAM yn elk).

It neidiel fan dizze oanpak is dat foar erkenning en training fan hege kwaliteit fan in neuronaal netwurk, de DeepSpeech-motor fereasket in grutte hoemannichte gegevens heterogeen yn echte omstannichheden diktearre troch ferskillende stimmen en yn 'e oanwêzigens fan natuerlike lûden.

Dizze gegevens wurde gearstald troch it Common Voice-projekt makke yn Mozilla, dat in ferifieare dataset leveret mei 1469 oeren yn 't Ingelsk, 692 yn' t Dútsk, 554 yn Frânsk, 105 oeren yn Russysk en 22 oeren yn Oekraynsk.

By it oplieden fan it definitive Ingelske model foar DeepSpeech, neist Common Voice, wurde ek gegevens brûkt fan de projekten LibriSpeech, Fisher en Switchboard, lykas sawat 1700 oeren opnamen fan transkribeare radioprogramma's.

Tusken de feroaringen yn 'e nije tûke, de mooglikheid om it gewicht fan 'e wurden te twingen wurdt markearre selektearre tidens it dekodearingsproses.

It markeart ek de stipe foar it Electron 9.2-platfoarm en in opsjoneel ymplemintaasje fan it laachnormalisaasjemeganisme (Layer Norm) by it oplieden fan it neuronale netwurk.

Download en krije

De prestaasjes binne genôch om de motor te brûken yn LePotato, Raspberry Pi 3 en Raspberry Pi 4 boards, lykas yn Google Pixel 2, Sony Xperia Z Premium en Nokia 1.3 smartphones.

Kleare modules wurde oanbean te brûken foar Python, NodeJS, C ++ en .NET om funksjes foar spraakherkenning yn jo programma's te yntegrearjen (ûntwikkelders fan tredden hawwe modulen apart taret foar Rust, Go en V).


De ynhâld fan it artikel hâldt him oan ús prinsipes fan redaksje etyk, Om in flater te melden klikje hjir.

Wês de earste om kommentaar

Lit jo reaksje efter

Jo e-mailadres wurdt net publisearre.

*

*

  1. Ferantwurdlik foar de gegevens: Miguel Ángel Gatón
  2. Doel fan 'e gegevens: Control SPAM, kommentaarbehear.
  3. Legitimaasje: jo tastimming
  4. Kommunikaasje fan 'e gegevens: De gegevens wurde net oan tredden kommunisearre, útsein troch wetlike ferplichting.
  5. Gegevensopslach: Databank hoste troch Occentus Networks (EU)
  6. Rjochten: Op elk momint kinne jo jo ynformaasje beheine, herstelle en wiskje.