Ipinakita ng Mozilla ang DeepSpeech 0.9 speech recognition engine

Ang paglunsad ay nai-publish makina ng pagkilala sa boses DeepSpeech 0.9 na binuo ni Mozilla, na nagpapatupad ng arkitektura ng pagkilala sa pagsasalita ng parehong pangalan na iminungkahi ng mga mananaliksik ng Baidu.

Ang pagpapatupad ay nakasulat sa Python gamit ang ang platform ng pag-aaral ng makina TensorFlow at ipinamamahagi sa ilalim ng libreng lisensya ng MPL 2.0.

Tungkol sa DeepSpeech

Ang DeepSpeech ay binubuo ng dalawang mga subsystem: isang modelo ng acoustic at isang decoder. Gumagamit ang modelo ng tunog ng malalim na mga diskarte sa pag-aaral ng makina upang makalkula ang posibilidad na ang ilang mga character ay naroroon sa input na tunog.

Gumagamit ang decoder ng isang ray search algorithm upang ibahin ang data ng posibilidad ng character sa isang representasyong pangkonteksto. Ang DeepSpeech ay mas simple kaysa sa tradisyunal na mga system at sa parehong oras ay nagbibigay ng isang mas mataas na kalidad ng pagkilala sa pagkakaroon ng labis na ingay.

Ang pag-unlad ay hindi gumagamit ng tradisyonal na mga modelo ng acoustic at ang konsepto ng mga ponema; sa halip, isang mahusay na na-optimize na neural network-based machine machine system na ginagamit, na inaalis ang pangangailangan na bumuo ng magkakahiwalay na mga sangkap upang mag-modelo ng iba't ibang mga anomalya tulad ng ingay, echo, at mga katangian ng pagsasalita.

Ang kit nag-aalok ng mga may kasanayang modelo, sample ng mga file ng tunog at mga tool sa pagkilala sa linya ng utos.

Ang tapos na modelo ay ibinibigay para sa Ingles at Tsino lamang. Para sa iba pang mga wika, maaari mong malaman ang system ng iyong sarili alinsunod sa mga nakalakip na tagubilin, gamit ang data ng boses na nakolekta ng proyekto ng Karaniwang Boses.

Kapag ang handa nang gamitin na modelo ng wikang Ingles na inaalok para sa pag-download ay ginagamit, ang antas ng mga pagkakamali sa pagkilala sa DeepSpeech ay 7.06% kapag sinuri gamit ang LibriSpeech test suite.

Para sa paghahambing, ang rate ng error sa pagkilala ng tao ay tinatayang nasa 5,83%.

Sa iminungkahing modelo, ang pinakamahusay na resulta ng pagkilala ay nakamit sa isang malinis na pag-record ng isang boses na lalaki na may isang accent na Amerikano sa isang kapaligiran na walang labis na ingay.

Ayon sa may-akda ng Vosk Continuous Speech Recognition Library, ang mga kawalan ng hanay ng Karaniwang Boses ay ang isang panig ng materyal sa pagsasalita (ang pamamayani ng mga kalalakihan sa kanilang 20s at 30s at ang kakulangan ng materyal na may boses ng mga kababaihan, bata. at matatanda), ang kakulangan ng pagkakaiba-iba ng bokabularyo (pag-uulit ng parehong parirala) at ang pamamahagi ng mga recording ng MP3 na madaling kapitan ng pagbaluktot.

Kabilang sa mga hindi pakinabang ng DeepSpeech ay hindi magandang pagganap at ang mataas na pagkonsumo ng memorya sa decoder, pati na rin ang mahahalagang mapagkukunan upang sanayin ang modelo (gumagamit ang Mozilla ng isang system na may 8 Quadro RTX 6000 GPU na may 24GB VRAM sa bawat isa).

Ang downside sa diskarte na ito ay iyon para sa mataas na kalidad na pagkilala at pagsasanay ng isang neural network, ang makina ng DeepSpeech nangangailangan ng isang malaking halaga ng data magkakaiba ang dikta sa totoong mga kundisyon ng iba't ibang mga tinig at sa pagkakaroon ng natural na mga ingay.

Ang data na ito ay pinagsama-sama ng proyekto ng Karaniwang Boses na nilikha sa Mozilla, na nagbibigay ng isang na-verify na hanay ng data na may 1469 na oras sa English, 692 sa German, 554 sa French, 105 oras sa Russian at 22 oras sa Ukrainian.

Kapag sinasanay ang panghuling modelo ng Ingles para sa DeepSpeech, bilang karagdagan sa Karaniwang Boses, ang data mula sa mga proyekto ng LibriSpeech, Fisher at Switchboard ay karagdagan na ginagamit, pati na rin humigit-kumulang na 1700 na oras ng mga pag-record ng mga naka-transcript na programa sa radyo.

Sa pagitan ng mga pagbabago sa bagong sangay, ang posibilidad na pilitin ang bigat ng mga salita ay naka-highlight napili sa panahon ng proseso ng pagde-decode.

Din ito naka-highlight ang suporta para sa platform ng Electron 9.2 at isang opsyonal na pagpapatupad ng layer na mekanismo ng normalisasyon (Layer Norm) kapag sinasanay ang neural network.

Mag-download at makakuha

Sapat ang pagganap upang magamit ang motor sa LePotato, Raspberry Pi 3 at Raspberry Pi 4 boards, pati na rin sa Google Pixel 2, Sony Xperia Z Premium at Nokia 1.3 smartphone.

Inaalok ang mga handa na module upang magamit para sa Python, NodeJS, C ++, at. NET upang isama ang mga pagpapaandar sa pagkilala sa pagsasalita sa iyong mga programa (ang mga developer ng third-party ay magkahiwalay na naghanda ng mga module para sa Rust, Go, at V).

DesdeLinux

Ipinakikilala ng Mozilla ang DeepSpeech 0.9 na Engine ng Pagkilala sa Pagsasalita

Tungkol sa DeepSpeech

Mag-download at makakuha

Iwanan ang iyong puna Ikansela ang tugon