Mozilla prezanton motorin e njohjes së fjalës DeepSpeech 0.9

Fjalimi i thellë 1

Nisja është botuar motor njohje zëri DeepSpeech 0.9 zhvilluar nga Mozilla, e cila zbaton arkitekturën e njohja e zërit me të njëjtin emër të propozuar nga studiuesit e Baidu.

Implementimi është shkruar në Python duke përdorur platforma e të mësuarit makinerik TensorFlow dhe shpërndahet nën licencën falas MPL 2.0.

Rreth DeepSpeech

DeepSpeech përbëhet nga dy nënsisteme: një model akustik dhe një dekodues. Modeli akustik përdor teknika të thella të të mësuarit në makinë për të llogaritur probabilitetin që karaktere të caktuara janë të pranishëm në tingullin hyrës.

Dekoduesi përdor një algoritëm kërkimi rrezesh për të shndërruar të dhënat e probabilitetit të karakterit në një paraqitje tekstuale. DeepSpeech është shumë më e thjeshtë se sistemet tradicionale dhe në të njëjtën kohë siguron një cilësi më të lartë të njohjes në prani të zhurmës së huaj.

Zhvillimi nuk përdor modele tradicionale akustike dhe konceptin e fonemave; në vend të kësaj, përdoret një sistem i mirë-optimizuar i të mësuarit të makinës i bazuar në rrjetin nervor, i cili eliminon nevojën për të zhvilluar përbërës të veçantë për të modeluar anomali të ndryshme si zhurma, jehona dhe karakteristikat e të folurit.

Çantë ofron modele të trajnuara, skedarë shembullorë të zërit dhe mjetet e njohjes së rreshtit komandues.

Modeli i përfunduar sigurohet vetëm për anglisht dhe kinezisht. Për gjuhë të tjera, ju mund ta mësoni vetë sistemin sipas udhëzimeve të bashkangjitura, duke përdorur të dhënat e zërit të mbledhura nga projekti Zëri i Përbashkët.

Kur përdoret modeli i gatshëm për përdorim i gjuhës angleze i ofruar për shkarkim, niveli i gabimeve të njohjes në DeepSpeech është 7.06% kur vlerësohet duke përdorur paketën e provës LibriSpeech.

Për krahasim, shkalla e gabimit të njohjes njerëzore vlerësohet në 5,83%.

Në modelin e propozuar, rezultati më i mirë i njohjes arrihet me një regjistrim të pastër të një zëri mashkullor me theks amerikan në një mjedis pa zhurma të huaja.

Sipas autorit të Bibliotekës së Vazhdueshme të Njohjes së Fjalës Vosk, disavantazhet e grupit të Zërit të Përbashkët janë njëanshmëria e materialit të të folurit (mbizotërimi i burrave në moshat 20 dhe 30 vjeç dhe mungesa e materialit me zërin e grave, fëmijëve dhe të moshuar), mungesa e ndryshueshmërisë së fjalorit (përsëritja e të njëjtave fraza) dhe shpërndarja e regjistrimeve MP3 të prirura për shtrembërim.

Disavantazhet e DeepSpeech përfshijnë performancë të dobët dhe konsumi i lartë i kujtesës në dekoder, si dhe burime të rëndësishme për të trajnuar modelin (Mozilla përdor një sistem me 8 Quadro RTX 6000 GPU me 24 GB VRAM në secilin).

E keqja e kësaj qasjeje është se për njohjen dhe trajnimin me cilësi të lartë të një rrjeti nervor, motori DeepSpeech kërkon një sasi të madhe të dhënash heterogjene e diktuar në kushte reale nga zëra të ndryshëm dhe në prani të zhurmës natyrore.

Këto të dhëna janë përpiluar nga projekti Zëri i Përbashkët i krijuar në Mozilla, i cili siguron një grup të dhënash të verifikuar me 1469 orë në anglisht, 692 në gjermanisht, 554 në frëngjisht, 105 orë në rusisht dhe 22 orë në ukrainisht.

Kur trajnoni modelin përfundimtar anglez për DeepSpeech, përveç Common Voice, përdoren gjithashtu të dhëna nga projektet LibriSpeech, Fisher dhe Switchboard, si dhe afërsisht 1700 orë regjistrime të programeve të radios të transkriptuara.

Midis ndryshimeve në degën e re, theksohet mundësia e detyrimit të peshës së fjalëve të zgjedhura gjatë procesit të dekodimit.

Ai gjithashtu thekson mbështetjen për platformën Electron 9.2 dhe një zbatim opsional të mekanizmit të normalizimit të shtresës (Nayer Norm) kur trajnoni rrjetin nervor.

Shkarkoni dhe merrni

Performanca është e mjaftueshme për të përdorur motorin në bordet LePotato, Raspberry Pi 3 dhe Raspberry Pi 4, si dhe në telefonat inteligjentë Google Pixel 2, Sony Xperia Z Premium dhe Nokia 1.3.

Ofrohen module të gatshme për të përdorur për Python, NodeJS, C ++ dhe .NET për të integruar funksionet e njohjes së fjalës në programet tuaja (zhvilluesit e palëve të treta kanë përgatitur veçmas module për Rust, Go dhe V).


Përmbajtja e artikullit i përmbahet parimeve tona të etika editoriale. Për të raportuar një gabim klikoni këtu.

Bëhu i pari që komenton

Lini komentin tuaj

Adresa juaj e emailit nuk do të publikohet. Fusha e kërkuar janë shënuar me *

*

*

  1. Përgjegjës për të dhënat: Miguel Ángel Gatón
  2. Qëllimi i të dhënave: Kontrolloni SPAM, menaxhimin e komenteve.
  3. Legjitimimi: Pëlqimi juaj
  4. Komunikimi i të dhënave: Të dhënat nuk do t'u komunikohen palëve të treta përveç me detyrim ligjor.
  5. Ruajtja e të dhënave: Baza e të dhënave e organizuar nga Occentus Networks (BE)
  6. Të drejtat: Në çdo kohë mund të kufizoni, rikuperoni dhe fshini informacionin tuaj.