Mozilla Ngenalkeun DeepSpeech 0.9 Mesin Pangenal Biantara

Jero Biantara1

Peluncuran parantos diterbitkeun mesin pangenal sora DeepSpeech 0.9 dikembangkeun ku Mozilla, anu ngalaksanakeun arsitéktur tina biantara Pangakuan tina nami anu sami diajukeun ku panaliti Baidu.

Palaksanaanna ditulis dina Python ngagunakeun platform mesin diajar TensorFlow sareng disebarkeun dina lisénsi MPL 2.0 gratis.

Ngeunaan DeepSpeech

DeepSpeech diwangun ku dua subsistem: modél akustik sareng dékoder. Model akustik ngagunakeun téknik pembelajaran mesin jero pikeun ngitung kamungkinan karakter tertentu aya dina sora input.

Dékoder ngagunakeun algoritma pamilarian sinar pikeun ngarobih data probabiliti karakter janten representasi tékstual. DeepSpeech jauh langkung saderhana tibatan sistem tradisional sareng sakaligus nyayogikeun kualitas pangakuan anu langkung luhur dina ayana noise luar.

Kamekaranana henteu nganggo modél akustik tradisional sareng konsép foném; tibatan, sistem pembelajaran mesin neural basis jaringan anu dioptimalkeun kalayan saé anu dianggo, anu ngaleungitkeun perluna ngembangkeun komponén anu misah pikeun modél sababaraha rupa anomali sapertos noise, echo, sareng ciri pidato.

Kitna nawarkeun model terlatih, conto file sora sareng paréntah pangakuan garis paréntah.

Modél réngsé disayogikeun pikeun Inggris sareng Cina hungkul. Pikeun basa anu sanés, anjeun tiasa diajar sistem nyalira numutkeun pitunjuk anu napel, nganggo data sora anu dikumpulkeun ku proyék Sora Biasa.

iraha modél siap pake tina basa Inggris anu ditawarkeun kanggo diunduh dianggo, tingkat kasalahan pangakuan dina DeepSpeech nyaéta 7.06% nalika dievaluasi nganggo uji coba LibriSpeech.

Pikeun babandingan, tingkat kasalahan pangakuan manusa diperkirakeun dina 5,83%.

Dina modél anu diusulkeun, hasil pangakuan anu pangsaéna dihontal kalayan rékaman bersih sora lalaki kalayan aksen Amérika dina lingkungan anu henteu aya sora luar.

Numutkeun ka panulis Pustaka pangakuan pidato anu teras-terasan Vosk, karugian tina sét Umum Sora nyaéta sapihak tina bahan pidato (kautamaan lalaki dina umur 20-an sareng 30-an sareng kurangna bahan ku sora awéwé, murangkalih sareng manula), kurangna variabilitas kosakata (pangulangan frasa anu sami) sareng distribusi rékaman MP3 rawan distorsi.

Kalemahan DeepSpeech kalebet kinerja anu goréng sareng konsumsi mémori anu luhur dina dékoder, ogé sumber penting pikeun ngalatih modél (Mozilla ngagunakeun sistem anu nganggo 8 Quadro RTX 6000 GPU kalayan 24GB VRAM dina masing-masing).

Anu ngarugikeun kana pendekatan ieu nyaéta éta pikeun pangakuan kualitas luhur sareng latihan jaringan saraf, mesin DeepSpeech meryogikeun sajumlah ageung data heterogen didikte dina kaayaan nyata ku sora anu béda sareng dina ayana sora alam.

Data ieu disusun ku proyék Sora Umum anu didamel di Mozilla, anu nyayogikeun data anu diverifikasi sareng 1469 jam dina basa Inggris, 692 dina basa Jerman, 554 dina basa Perancis, 105 jam dina basa Rusia sareng 22 jam di Ukraina.

Nalika ngalatih modél akhir Inggris pikeun DeepSpeech, salian ti Common Voice, data ti proyék LibriSpeech, Fisher, sareng Switchboard ogé dianggo, ogé sakitar 1700 jam rekaman program radio anu ditranskripsi.

Antara parobihan dina cabang anyar, kamungkinan maksa beurat kecapna disorot dipilih nalika prosés dekoding.

Éta ogé nyorot dukungan pikeun platform Éléktron 9.2 sareng palaksanaan opsional tina mékanisme normalisasi lapisan (Layer Norm) nalika ngalatih jaringan saraf.

Unduh sareng kéngingkeun

Kinerjaanana cekap pikeun nganggo motor dina papan LePotato, Raspberry Pi 3 sareng Raspberry Pi 4, ogé dina Google Pixel 2, Sony Xperia Z Premium sareng Nokia 1.3 smartphone.

Modul siap ditawarkeun pikeun dipaké pikeun Python, NodeJS, C ++, sareng .NET pikeun ngahijikeun fungsi pangakuan pidato kana program anjeun (pamekar pihak katilu parantos nyiapkeun modul pikeun Rust, Go, sareng V).


Eusi tulisan taat kana prinsip urang tina étika éditorial. Pikeun ngalaporkeun kasalahan klik di dieu.

Janten kahiji komen

Ninggalkeun koméntar anjeun

email alamat anjeun moal diterbitkeun.

*

*

  1. Jawab data: Miguel Ángel Gatón
  2. Tujuan tina data: Kontrol SPAM, manajemén koméntar.
  3. Legitimasi: idin anjeun
  4. Komunikasi data: Data moal dikomunikasikan ka pihak katilu kacuali ku kawajiban hukum.
  5. Panyimpenan data: Basis data anu diayakeun ku Occentus Networks (EU)
  6. Hak: Iraha waé anjeun tiasa ngawatesan, cageur sareng mupus inpormasi anjeun.

bool (leres)