Mozilla webatara DeepSpeech 0.9 Speech Engine Engine

Okechukwu1

Mwepụta ebipụtala olu njirimara igwe DeepSpeech 0.9 nke Mozilla mepụtara, nke na-eme ihe owuwu nke olu mara nke otu aha ndị Baidu mere.

Mmejuputa edere na Python na-eji igwe muta ikpo okwu TensorFlow ma kesaa n'okpuru ikikere MPL 2.0 n'efu.

Banyere DeepSpeech

DeepSpeech nwere usoro abụọ: ihe acoustic nlereanya na a decoder. Akpụrụ acoustic na-eji usoro mmụta igwe dị omimi iji gbakọọ ihe puru omume na ụfọdụ mkpụrụedemede dị na ụda ntinye.

Ihe ndozi ahụ na-eji algorithm ọchụchọ ray iji gbanwee data omume puru omume n'ime nnọchi ederede. DeepSpeech dị nnọọ mfe karịa usoro ọdịnala ma n'otu oge ahụ na-enye ogo dị elu nke mmata na ọnụnọ nke ụda na-enweghị atụ.

Mmepe anaghị eji usoro ọdịnala ọdịnala na echiche nke fọnịm; kama, a na-eji sistemụ mmụta igwe na-arụ ọrụ netwọl kachasị mma, nke na-ewepụ mkpa ọ dị iji mepụta ihe dị iche iche iji gosipụta ụdị nsogbu dị iche iche dịka mkpọtụ, nkuzi, na njirimara okwu.

Ihe ahụ awade zụrụ ụdị, sample ụda faịlụ na iwu akara ude ngwaọrụ.

Emechara ihe nlereanya a gwụchara maka Bekee na Chinese naanị. Maka asụsụ ndị ọzọ, ịnwere ike ịmụ usoro ahụ n'onwe gị dịka ntuziaka ndị agbakwunye, na-eji data olu nke nchịkọta Voice Voice nakọtara.

Mgbe - a na-eji ihe atụ dị njikere nke asụsụ Bekee nke a na-enye maka nbudata, larịị nke ude njehie na DeepSpeech bụ 7.06% mgbe inyocha iji LibriSpeech ule ụlọ.

N'iji ya tụnyere, ọnụego njehie mmadụ na-eme atụmatụ na 5,83%.

Na ụdị a chọrọ, a na-enweta nsonaazụ kachasị mma site na ndekọ nwoke dị ọcha na ụda olu America na gburugburu ebe obibi na-enweghị ụda ọ bụla.

Dabere na onye edemede nke Vosk Continuous Speech Identification Library, ọghọm nke Voice Voice setịpụrụ bụ otu akụkụ nke okwu okwu (ọtụtụ ụmụ nwoke gbara afọ 20 ruo 30 na enweghị ihe eji eji olu ụmụ nwanyị, ụmụaka na agadi), enweghi mgbanwe okwu (ikwughachi otu ahịrịokwu) na nkesa nke ndekọ MP3 na-agbagọ agbagọ.

Advantkọ ihe ụfọdụ nke DeepSpeech gụnyere arụ ọrụ adịghị mma na ikike nchekwa dị elu na decoder, yana akụ dị mkpa iji zụọ ihe nlereanya ahụ (Mozilla na-eji sistemụ nwere 8 Quadro RTX 6000 GPUs nwere 24GB VRAM na nke ọ bụla).

Ihe na-adighi adaba na uzo a bu na maka njirimara dị elu na ọzụzụ nke netwọkụ ntanetị, igwe DeepSpeech chọrọ nnukwu data a na-ekwuputa okwu di iche site na olu di iche site na olu di iche.

A chịkọtara data a site na ọrụ Voice Voice nke emere na Mozilla, nke na-enye data egosipụtara nke awa 1469 na Bekee, 692 na German, 554 na French, awa 105 na Russian na 22 awa na Ukraine.

Mgbe ị na-azụ ihe atụ Bekee ikpeazụ maka DeepSpeech, na mgbakwunye na Voice nkịtị, a na-ejikwa data sitere na ọrụ LibriSpeech, Fisher na Switchboard, yana ihe dịka 1700 awa nke ndekọ nke mmemme redio edepụtara.

N'etiti mgbanwe na alaka ụlọ ọrụ ọhụrụ, enwere ike ịmanye ịdị arọ nke okwu a ahọrọ n’oge usoro nyopụta.

Ọ na-egosikwa nkwado maka ikpo okwu Electron 9.2 na ntinye nhọrọ nke usoro nhazi usoro (Layer Norm) mgbe ị na-azụ netwọkụ ntanetị.

Ibudata ma nweta

Omume ahụ zuru ezu iji moto ahụ na mbadamba LePotato, Raspberry Pi 3 na Raspberry Pi 4, yana Google Pixel 2, Sony Xperia Z Premium na Nokia 1.3 smartphones.

A na-enye modulu ndị dị njikere iji maka Python, NodeJS, C ++, na NET iji mekota ọrụ nyocha okwu n'ime mmemme gị (ndị nrụpụta nke atọ nwere usoro dị iche iche akwadoro maka Rust, Go, na V).


Ọdịnaya nke isiokwu agbaso ụkpụrụ anyị nke ụkpụrụ nduzi. Kpesa mmejọ pịa ebe a.

Bụrụ onye mbụ ịza ajụjụ

Hapu okwu gi

Adreesị email gị agaghị bipụtara. Chọrọ ubi na-akara na *

*

*

  1. Rụ ọrụ maka data: Miguel Ángel Gatón
  2. Nzube nke data: Nchịkwa SPAM, njikwa okwu.
  3. Ikike: Nkwenye gị
  4. Nkwurịta okwu nke data: Agaghị agwa ndị ọzọ data ahụ ma ọ bụghị site na iwu.
  5. Nchekwa data: Ebe nchekwa data nke Occentus Networks (EU) kwadoro
  6. Ikike: Oge obula inwere ike igbachi, weghachite ma hichapụ ihe omuma gi.