DeepSpeech: Mozilla cov lus lees paub lub cav

DeepSpeech1

Tam sim no Mozilla tsis tsuas yog ua haujlwm ntawm nws lub vev xaib nrov npe, tab sis kuj muaj ntau lub phiaj xwm nyob hauv nws lub kaus, ntawm uas Hnub no peb yuav tham txog DeepSpeechCov. No kev hais lus cim lub cav uas ua raws li cov lus tsis txaus ntseeg hais txog kev cim lub suab pom zoo tsim los ntawm Baidu cov kws tshawb nrhiav.

DeepSpeech sawv tawm los muab cov qauv kev kawm sib txawv, piv txwv cov ntaub ntawv audio, thiab cov kab cim kom paub txog kab, los sib sau ua ke kom paub txog txoj kev hais lus hauv koj cov kev pab cuam. Rau nws npaj-rau-siv cov qauv yog muab rau sej, NodeJS, C ++ thiab .NET, txawm hais tias cov neeg tsim khoom sab nraud kuj npaj cov qauv sib txawv rau Rust thiab Mus.

Cov qauv ua tiav tau xa tawm rau cov lus Askiv xwb, tab sis rau lwm hom lus raws li cov lus qhia txuas nrog, cov txheej txheem tuaj yeem raug qhia siv cov ntaub ntawv lub suab sau los ntawm Common Voice project.

Txog ntawm DeepSpeech

DeepSpeech yooj yim dua li ntau tshaj li cov kab ke siv thiab tib lub sijhawm muab kev lees paub ntau dua nyob rau hauv lub xub ntiag ntawm cov suab nrov extraneous.

Txoj kev txhim kho tsis siv cov qauv lus acoustic thiab cov tswv yim ntawm phonemes; hloov, siv lub tshuab kev kawm zoo Zoo optimized neural network raws, uas tshem tawm qhov xav tau los tsim kev sib cais sib txawv ua qauv ua qauv sib txawv xws li suab nrov, ncha thiab hais lus yam ntxwv.

Qhov ntxeev sab ntawm txoj hauv kev yog kom tau txais kev lees paub zoo thiab kev cob qhia ntawm neural network, lub cev muaj zog DeepSpeech yuav tsum muaj ntau ntawm cov ntaub ntawv heterogeneous dictated nyob rau hauv cov xwm txheej tiag tiag los ntawm cov suab sib txawv thiab hauv lub suab nrov ntuj.

Lub Suab Nruab Nrab ua haujlwm tsim hauv Mozilla yog lub luag haujlwm rau kev sau cov ntaub ntawv, muab cov ntaub ntawv pov thawj tsim nrog 780 teev ua lus Askiv, 325 hauv German, 173 hauv Fabkis thiab 27 teev hauv Lavxias.

Lub hom phiaj kawg los ntawm Cov Lus Pov Hwm Hauv Chaw Haujlwm yog cov tsub zuj zuj ntawm 10 txhiab teev nrog cov kaw lus ntawm ntau lub suab ntawm cov nqe lus feem ntau ntawm cov tib neeg hais lus, uas yuav mus txog qib uas lees paub qhov ua yuam kev. Hauv daim foos tam sim no, cov koom tes nrog txoj haujlwm tau qhia tag nrho ntawm 4.3 txhiab teev, ntawm uas 3.5 txhiab tau dhau qhov kev xeem.

Hauv kev qhia txog tus qauv lus Askiv kawg rau DeepSpeech, 3816 teev ntawm kev hais lus tau siv, tshwj tsis yog Lub Suab Nruab Nrab uas yog siv cov ntaub ntawv los ntawm LibriSpeech, Fisher thiab Switchboard cov haujlwm, nrog rau suav nrog ib puag ncig 1700 teev ntawm cov xov tooj cua kaw suab kab ke.

Thaum siv lus Askiv npaj-rau-download, qhov kev lees paub qhov ua tsis tiav nyob hauv DeepSpeech yog 7,5% thaum ntsuam xyuas nrog LibriSpeech test suite. Los ntawm txoj kev sib piv, theem ntawm kev ua yuam kev hauv tib neeg qhov kev kwv yees tau kwv yees ntawm 5.83%.

DeepSpeech muaj ob qhov kev ua haujlwm: ib qho qauv ntawm lub suab thiab lub cim taws. Cov qauv acoustic siv cov kev kawm lub tshuab sib sib zog nqus los laij qhov tshwm sim ntawm qhov muaj qee yam cim hauv lub suab tawm suab. Tus lej ntsuas ntawv siv cov duab nrhiav tshawb nrhiav duab hluav taws xob los hloov cov yam ntxwv kom zoo ntxiv rau cov ntawv nyeem.

Txog tus tshiab version ntawm DeepSpeech

DeepSpeech tam sim no hauv nws cov version 0.6 nyob rau hauv uas cov kev hloov hauv qab no yog tseem ceeb:

  • Qhov xa duab tawm tshiab tau tshaj tawm tias muab qhov kev cuam tshuam zoo dua thiab tsis nyob ntawm qhov loj npaum li cas ntawm cov ntaub ntawv audio.
  • Kev hloov pauv tau ua rau API thiab kev ua haujlwm tau ua tiav los ua ke cov npe ntawm cov haujlwm. Lub luag haujlwm tau muab ntxiv rau kom tau cov metadata ntxiv hais txog cov kev sib txuas lus, uas tsis yog tsuas yog txais cov ntawv sau ua lus hauv kev tsim tawm, tab sis kuj tseem yuav taug qab cov lus sib txuas ntawm ib tug neeg cov cim thiab kab lus mus rau ib txoj haujlwm hauv suab dej.
  • Txhawb nqa siv CuDNN lub tsev qiv ntawv txhawm rau ua kom zoo dua kev ua haujlwm nrog kev sib txuas lus neural txuas ntxiv (RNN) tau ntxiv rau cov cuab yeej ntawm cov txheej txheem kev cob qhia.
  • Cov tseev kom muaj yam tsawg kawg nkaus rau TensorFlow version tau tsa los ntawm 1.13.1 txog 1.14.0.
  • Ntxiv kev txhawb nqa rau TensorFlow Lite Teeb Tsab, uas txo cov DeepSpeech pob loj los ntawm 98MB rau 3.7MB.
  • Cov qauv lus tau pauv mus rau lwm cov qauv ntaub ntawv, ua kom cov ntaub ntawv faib rau lub cim xeeb thaum lub sijhawm khau raj.
  • Kev them nyiaj yug rau hom ntawv qub tau raug txiav lawm.

Qhov kev siv tau yog sau nyob rau nab hab sej siv TensorFlow tshuab kev kawm platform thiab muab faib nyob rau hauv MPL 2.0 daim ntawv tso cai dawb. Txoj haujlwm Nws yog txhawb ntawm Linux, Android, macOS thiab WindowsCov. Muaj kev ua tau zoo txaus los siv lub cev muaj zog ntawm LePotato, Raspberry Pi 3 thiab Raspberry Pi 4 cov laug cam.


Cov ntsiab lus ntawm tsab xov xwm ua raws li peb cov ntsiab cai ntawm kev tswj hwm kev ncaj nceesCov. Tshaj tawm ib qho yuam kev nyem no.

Yog thawj tus tuaj tawm tswv yim

Tso koj saib

Koj email chaw nyob yuav tsis tsum luam tawm.

*

*

  1. Lub luag haujlwm rau cov ntaub ntawv: Miguel Ángel Gatón
  2. Lub hom phiaj ntawm cov ntaub ntawv: Tswj SPAM, kev tswj xyuas tawm tswv yim.
  3. Sau raws cai: Koj kev tso cai
  4. Kev sib txuas lus ntawm cov ntaub ntawv: Cov ntaub ntawv yuav tsis raug xa mus rau lwm tus neeg thib peb tsuas yog los ntawm kev txiav txim siab raug cai.
  5. Cov ntaub ntawv khaws cia: Cov Ntaub Ntawv khaws tseg los ntawm Occentus Networks (EU)
  6. Txoj Cai: Txhua lub sijhawm koj tuaj yeem txwv, rov qab thiab tshem tawm koj cov ntaub ntawv.