Mozilla DeepSpeech 0.9 Кепти таануу кыймылдаткычын сунуштайт

DeepSpeech1

Ишке киргизүү жарыяланды үн таануучу кыймылдаткыч DeepSpeech 0.9 Mozilla тарабынан иштелип чыкканархитектурасын жүзөгө ашырат Кеп таануу Baidu изилдөөчүлөрү сунуш кылган ушул эле аталыштагы.

Ишке ашыруу колдонуу менен Pythonдо жазылган машина үйрөнүү платформасы TensorFlow жана MPL 2.0 акысыз лицензиясынын астында таратылат.

DeepSpeech жөнүндө

DeepSpeech эки ички тутумдан турат: акустикалык модель жана декодер. Акустикалык модель машинада окутуунун терең ыкмаларын колдонуп, кириш үнүндө айрым белгилердин болушу ыктымалдыгын эсептейт.

Декодер белгилердин ыктымалдуулук маалыматтарын тексттик чагылдырууга айландыруу үчүн нур издөө алгоритмин колдонот. DeepSpeech салттуу тутумдарга караганда кыйла жөнөкөй жана ошол эле учурда чет элдик ызы-чуу болгондо таануунун жогорку сапатын камсыз кылат.

Өнүгүүдө салттуу акустикалык моделдер жана фонемалар түшүнүгү колдонулбайт; анын ордуна, оптималдаштырылган нейрон тармагына негизделген машинаны үйрөнүү тутуму колдонулат, бул ызы-чуу, жаңырык жана сүйлөө мүнөздөмөсү сыяктуу ар кандай аномалияларды моделдөө үчүн өзүнчө компоненттерди иштеп чыгуу зарылчылыгын жокко чыгарат.

Комплект үйрөтүлгөн моделдерди, үн файлдарынын үлгүлөрүн сунуш кылат жана буйрук сабын таануу куралдары.

Даяр модель англис жана кытай тилдеринде гана берилет. Башка тилдер үчүн, сиз "Жалпы үн" долбоору чогулткан үн маалыматтарын колдонуп, тиркелген көрсөтмөлөргө ылайык тутумду өзүңүз үйрөнсөңүз болот.

качан жүктөөгө сунушталган англис тилинин колдонууга даяр модели колдонулат, LibriSpeech тесттик пакети аркылуу бааланганда DeepSpeech программасында таануу каталарынын деңгээли 7.06% түзөт.

Салыштыруу үчүн, адамды таануу каталарынын көрсөткүчү 5,83% деп бааланат.

Сунуш кылынган моделде эң мыкты таануу натыйжасы эркек кишинин үнүн таза үн жазуу менен, сырткы ызы-чуусуз чөйрөдө америкалык акцент менен жүргүзүлөт.

Vosk тынымсыз сүйлөө таануу китепканасынын авторунун айтымында, Жалпы Үн топтомунун кемчиликтери - кеп материалынын бир жактуулугу (20 жаштан 30 жашка чейинки эркектердин басымдуулук кылышы жана аялдардын, балдардын үнү менен материалдын жетишсиздиги жана кары-картаңдар), сөздүктүн өзгөрүлмөлүүлүгүнүн жоктугу (ошол эле сөз айкаштарын кайталоо) жана бурмалоого жакын MP3 жазууларын жайылтуу.

DeepSpeechтин кемчиликтери начар иштөөнү камтыйт жана декодердеги эс тутумдун көп чыгымдалышы, ошондой эле моделди окутуу үчүн маанилүү ресурстар (Mozilla ар биринде 8 ГБ VRAM орнотулган 6000 Quadro RTX 24 GPU менен тутумду колдонот).

Мындай ыкманын терс жагы ушул нейрон тармагын жогорку сапатта таануу жана окутуу үчүн, DeepSpeech кыймылдаткычы көп көлөмдөгү маалыматты талап кылат ар кандай үндөр менен жана табигый ызы-чуулардын катышуусунда чыныгы шарттарда гетерогендик.

Бул маалыматтарды Mozilla программасында түзүлгөн Common Voice долбоору түзүп, англис тилинде 1469 саат, немис тилинде 692, француз тилинде 554, орус тилинде 105 саат жана украин тилинде 22 саат текшерилген маалымат топтомун камсыз кылат.

DeepSpeech үчүн англис тилинин акыркы моделин үйрөтүүдө, Жалпы Үндөн тышкары, LibriSpeech, Fisher жана Switchboard долбоорлорунан алынган маалыматтар, ошондой эле транскрипцияланган радио программаларынын болжол менен 1700 сааттык жазуусу колдонулат.

Жаңы филиалдагы өзгөрүүлөрдүн ортосунда, сөздөрдүн салмагын мажбурлоо мүмкүнчүлүгү көрсөтүлгөн чечмелөө процессинде тандалган.

Ошондой эле, Electron 9.2 платформасынын колдоосун жана нейрон тармагын окутууда катмарды нормалдаштыруу механизмин (Layer Norm) милдеттүү түрдө ишке ашырууну баса белгилейт.

Жүктөө жана алуу

Иштетүү моторду LePotato, Raspberry Pi 3 жана Raspberry Pi 4 такталарында, ошондой эле Google Pixel 2, Sony Xperia Z Premium жана Nokia 1.3 смартфондорунда колдонуу үчүн жетиштүү.

Даяр модулдар сунушталат сүйлөө таануу функцияларын программаларыңызга киргизүү үчүн Python, NodeJS, C ++ жана .NET үчүн колдонуу (үчүнчү жактын иштеп чыгуучулары Rust, Go жана V үчүн модульдарды өзүнчө даярдашкан).


Макаланын мазмуну биздин принциптерге карманат редакциялык этика. Ката жөнүндө кабарлоо үчүн чыкылдатыңыз бул жерде.

Комментарий биринчи болуп

Комментарий калтырыңыз

Сиздин электрондук почта дареги жарыяланбайт. Милдеттүү талаалар менен белгиленет *

*

*

  1. Маалыматтар үчүн жооптуу: Мигель Анхель Гатан
  2. Маалыматтын максаты: СПАМды көзөмөлдөө, комментарийлерди башкаруу.
  3. Мыйзамдуулук: Сиздин макулдугуңуз
  4. Маалыматтарды берүү: Маалыматтар үчүнчү жактарга юридикалык милдеттенмелерден тышкары билдирилбейт.
  5. Маалыматтарды сактоо: Occentus Networks (ЕС) тарабынан уюштурулган маалыматтар базасы
  6. Укуктар: Каалаган убакта маалыматыңызды чектеп, калыбына келтирип жана жок кыла аласыз.