Mozilla Enkondukas DeepSpeech 0.9 Speech Recognition Engine

Profunda Parolado1

Lanĉo estis publikigita voĉorekona motoro DeepSpeech 0.9 disvolvita de Mozilla, kiu efektivigas la arkitekturon de parolado rekono samnoma proponita de Baidu-esploristoj.

La efektivigo estas skribita en Python uzante la maŝinlernada platformo TensoroFluo kaj estas distribuata sub la senpaga licenco MPL 2.0.

Pri DeepSpeech

DeepSpeech konsistas el du subsistemoj: akustika modelo kaj malĉifrilo. La akustika modelo uzas profundajn maŝinlernajn teknikojn por kalkuli la probablon, ke iuj signoj ĉeestas en la eniga sono.

La malĉifrilo uzas algoritmon de radioserĉo por transformi la datumojn de probableco de karaktero en tekstan reprezenton. DeepSpeech estas multe pli simpla ol tradiciaj sistemoj kaj samtempe donas pli altan rekonkvaliton en ĉeesto de fremda bruo.

La evoluo ne uzas tradiciajn akustikajn modelojn kaj la koncepton de fonemoj; anstataŭe oni uzas bone optimumigitan neŭralan ret-bazitan maŝinlernan sistemon, kiu forigas la bezonon disvolvi apartajn komponantojn por modeligi diversajn anomaliojn kiel bruo, eoo kaj parolaj trajtoj.

La ilaro ofertas trejnitajn modelojn, specimenajn sondosierojn kaj komandliniaj rekoniloj.

La finita modelo estas liverita nur por la angla kaj la ĉina. Por aliaj lingvoj, vi povas mem lerni la sistemon laŭ la aldonitaj instrukcioj, uzante la voĉajn datumojn kolektitajn de la projekto Common Voice.

Kiam estas uzata la preta modelo de la elŝutita angla lingvo, la nivelo de agnoskaj eraroj en DeepSpeech estas 7.06% kiam oni taksas ĝin per la testoserio LibriSpeech.

Por komparo, la erara indico de homa rekono estas taksita je 5,83%.

En la proponita modelo, la plej bona rekona rezulto atingiĝas per pura registrado de vira voĉo kun usona akĉento en ĉirkaŭaĵo sen fremdaj bruoj.

Laŭ la aŭtoro de la Vosk Continuous Speech Recognition Library, la malavantaĝoj de la Komuna Voĉa aro estas la unuflankeco de la parolmaterialo (la superregado de viroj en la aĝo de 20 ĝis 30 kaj la manko de materialo kun la voĉo de virinoj, infanoj kaj maljunuloj), la manko de vortproviza ŝanĝebleco (ripeto de la samaj frazoj) kaj la distribuado de MP3-registradoj emaj al distordo.

Malavantaĝoj de DeepSpeech inkluzivas malbonan rendimenton kaj la alta memora konsumo en la malĉifrilo, kaj ankaŭ gravaj rimedoj por trejni la modelon (Mozilla uzas sistemon kun 8 GPU Quadro RTX 6000 kun 24GB VRAM en ĉiu).

La malavantaĝo de ĉi tiu aliro estas tio por altkvalita rekono kaj trejnado de neŭrala reto, la motoro DeepSpeech postulas grandan kvanton da datumoj heterogena diktita en realaj kondiĉoj de malsamaj voĉoj kaj en ĉeesto de naturaj bruoj.

Ĉi tiuj datumoj estas kompilitaj per la projekto Komuna Voĉo kreita en Mozilla, kiu donas kontrolitan datumaron kun 1469 horoj en la angla, 692 en la germana, 554 en la franca, 105 horoj en la rusa kaj 22 horoj en la ukraina.

Kiam vi trejnas la finan anglan modelon por DeepSpeech, krom Common Voice, aldone estas uzataj datumoj de la projektoj LibriSpeech, Fisher kaj Switchboard, kaj ankaŭ ĉirkaŭ 1700 horojn da registradoj de transskribitaj radioprogramoj.

Inter la ŝanĝoj en la nova branĉo, la ebleco devigi la pezon de la vortoj estas reliefigita elektita dum la malkodiga procezo.

Subteno por la platformo Electron 9.2 kaj nedeviga efektivigo de la tavoliga normaliga mekanismo (Tavola Normo) dum trejnado de la neŭrala reto ankaŭ estas reliefigitaj.

Elŝutu kaj akiru

La rendimento sufiĉas por uzi la motoron en LePotato, Raspberry Pi 3 kaj Raspberry Pi 4-tabuloj, same kiel en Google Pixel 2, Sony Xperia Z Premium kaj Nokia 1.3-poŝtelefonoj.

Pretaj moduloj ofertitaj uzi por Python, NodeJS, C ++ kaj .NET por integri parolrekonajn funkciojn en viajn programojn (triaj programistoj aparte preparis modulojn por Rust, Go kaj V).


La enhavo de la artikolo aliĝas al niaj principoj de redakcia etiko. Por raporti eraron alklaku Ĉi tie.

Estu la unua por komenti

Lasu vian komenton

Via retpoŝta adreso ne estos eldonita. Postulita kampojn estas markita per *

*

*

  1. Respondeculo pri la datumoj: Miguel Ángel Gatón
  2. Celo de la datumoj: Kontrola SPAM, administrado de komentoj.
  3. Legitimado: Via konsento
  4. Komunikado de la datumoj: La datumoj ne estos komunikitaj al triaj krom per laŭleĝa devo.
  5. Stokado de datumoj: Datumbazo gastigita de Occentus Networks (EU)
  6. Rajtoj: Iam ajn vi povas limigi, retrovi kaj forigi viajn informojn.