Mozilla dia mampiditra maotera DeepSpeech 0.9 Speech Recognition Engine

DeepSpeech1

Navoaka ny fandefasana maotera fanekena feo DeepSpeech 0.9 novolavolain'i Mozilla, izay mampihatra ny maritrano ny fanekena ny teny mitovy anarana naroson'ny mpikaroka Baidu.

Ny fampiharana dia voasoratra amin'ny Python amin'ny fampiasana ny sehatra ianarana ny milina TensorFlow ary zaraina amin'ny alàlan'ny fahazoan-dàlana MPL 2.0 maimaim-poana.

Momba ny DeepSpeech

DeepSpeech dia misy zana-kazo roa: maodely akustika sy decoder. Ny maodely akustika dia mampiasa teknika ianarana milina lalina mba hikajiana ny mety isian'ny tarehin-tsoratra sasany ao amin'ilay feo ampidirina.

Ny decoder dia mampiasa algorithm fitadiavana ray mba hanovana ny angona mety hitranga ho endrika fanehoana ny soratra. DeepSpeech dia tsotra kokoa noho ny rafitra nentim-paharazana ary miaraka amin'izay dia manome kalitao avo lenta amin'ny fisian'ny tabataba any ivelany.

Ny fivoarana dia tsy mampiasa maodely akustika nentim-paharazana sy ny foto-kevitry ny ponenana; fa kosa, rafi-pampianarana milina mifototra amin'ny tambajotra neural tsara ampiasaina no ampiasaina, izay manafoana ny filana fambolena singa misaraka mba hanome maodely ireo anomaly isan-karazany toy ny tabataba, ny akony ary ny toetran'ny kabary.

Ny kitapo manolotra maodely efa voaofana, raki-peo ohatra ary fitaovana fanekena ny tsipika baiko.

Ny maodely vita dia omena ho an'ny anglisy sy sinoa ihany. Ho an'ny fiteny hafa, azonao atao ny mianatra ny rafitra arakaraka ny torolàlana mifamatotra, amin'ny fampiasana ny angona feo nangonin'ny tetikasa Common Voice.

rehefa ny maodely vonona-hampiasa ny teny anglisy atolotra ho an'ny fisintomana dia ampiasaina, ny haavon'ny lesoka fankasitrahana ao amin'ny DeepSpeech dia 7.06% rehefa tombanana amin'ny fampiasana ny valin'ny fitsapana LibriSpeech.

Ho fampitahana, ny tahan'ny lesoka momba ny olombelona dia tombanana ho 5,83%.

Ao amin'ilay maodely naroso, ny valiny fanekena tsara indrindra dia azo amin'ny alàlan'ny firaketana madio ny feon-dehilahy miaraka amina lantom-peo amerikana ao anaty tontolo tsy misy tabataba.

Araka ny filazan'ny mpanoratra ny fitehirizam-boky momba ny kabary Vosk mitohy, ny fatiantoka amin'ny valan'ny Common Voice dia ny lafiny iray amin'ny fitaovam-pitenenana (ny fahamaroan'ny lehilahy amin'ny 20 sy 30 taona ary ny tsy fahampian'ny fitaovana amin'ny feon'ny vehivavy, ankizy. sy zokiolona), ny tsy fisian'ny fiovaovan'ny voambolana (famerenana andian-teny mitovy) ary ny fanaparitahana ireo rakipeo MP3 mora tohina.

Ny tsy fahampian'ny DeepSpeech dia misy mahomby amin'ny fampisehoana ary ny fanjifana fahatsiarovana avo lenta ao amin'ny decoder, ary koa loharano manan-danja hampiofanana ny maodely (Mozilla dia mampiasa rafitra misy GPU 8 Quadro RTX 6000 miaraka amin'ny 24GB VRAM).

Ny lafiny ratsy amin'io fomba io dia izany ho an'ny fanekena sy fampiofanana avo lenta ny tamba-jotra, ny motera DeepSpeech mitaky angon-drakitra marobe heterogeneous dictated amin'ny tena toe-piainan'ny feo samy hafa sy ny fisian'ny tabataba voajanahary.

Ireo angon-drakitra ireo dia natambatry ny tetikasa Common Voice noforonina tao Mozilla, izay manome tahirin-kevitra voamarina miaraka amin'ny 1469 ora amin'ny teny Anglisy, 692 amin'ny teny alemà, 554 amin'ny teny frantsay, 105 ora amin'ny teny rosiana ary 22 ora ao Okrainiana.

Rehefa manofana ny maodely anglisy farany ho an'ny DeepSpeech, ankoatry ny Common Voice, ny data avy amin'ny tetikasa LibriSpeech, Fisher, ary Switchboard dia ampiasaina ihany koa, ary koa ny fandraisam-peo fandaharana amin'ny radio efa ho 1700 ora.

Eo anelanelan'ny fanovana ao amin'ny sampana vaovao, asongadiny ny mety fanerena ny lanjan'ny teny voafantina nandritra ny dingan'ny famoahana decoding.

Izy io koa dia manasongadina ny fanohanana ny sehatra Electron 9.2 sy ny fampiharana tsy voatery ho an'ny mekanisma normalization layer (Layer Norm) rehefa mampiofana ny tamba-jotra.

Misintona ary mahazo

Ny fampisehoana dia ampy amin'ny fampiasana ny motera amin'ny tabilao LePotato, Raspberry Pi 3 ary Raspberry Pi 4, ary koa amin'ny finday Google Pixel 2, Sony Xperia Z Premium ary Nokia 1.3.

Module vonona atolotra hampiasaina amin'ny Python, NodeJS, C ++, ary .NET hampidirana ireo fiasa fankasitrahana kabary ao anatin'ny programa ataonao (ireo mpandrindra ny antoko fahatelo dia nanomana modely ho an'ny Rust, Go, ary V).


Ny atin'ny lahatsoratra dia manaraka ny fitsipiky ny etika fanonta. Raha hitatitra tsindry diso eto.

Aoka ho voalohany ny fanehoan-kevitra

Avelao ny hevitrao

Ny adiresy email dia tsy ho namoaka.

*

*

  1. Tompon'andraikitra amin'ny data: Miguel Ángel Gatón
  2. Tanjon'ny angona: Control SPAM, fitantanana hevitra.
  3. Legitimation: Ny fanekenao
  4. Fifandraisana momba ny angona: Tsy hampitaina amin'ny antoko fahatelo ny angona raha tsy amin'ny adidy ara-dalàna.
  5. Fitehirizana angona: Database nomen'ny Occentus Networks (EU)
  6. Zo: Amin'ny fotoana rehetra, azonao atao ny mametra, mamerina ary mamafa ny mombamomba anao.