Mozilla DeepSpeech 0.9 Engine Recognition Engine -ро муаррифӣ мекунад

DeepSpeech1

Оғоз аз чоп баромад муҳаррики шинохтани овоз DeepSpeech 0.9, ки онро Mozilla таҳия кардааст, ки меъмории шинохтани сухан бо ҳамин ном, ки аз ҷониби муҳаққиқони Baidu пешниҳод шудааст.

Амалисозӣ бо истифода аз Python навишта шудааст платформаи омӯзиши мошинҳо ТенорФлов ва дар доираи иҷозатномаи ройгони MPL 2.0 тақсим карда мешавад.

Дар бораи DeepSpeech

DeepSpeech аз ду зерсистема иборат аст: модели акустикӣ ва декодер. Модели акустикӣ усулҳои амиқи омӯзиши мошиниро барои ҳисоб кардани эҳтимолияти дар садои вуруд мавҷуд будани аломатҳои муайян истифода мебарад.

Декодер алгоритми ҷустуҷӯи рентгенро барои табдил додани маълумоти эҳтимолияти аломатҳо ба намоиши матнӣ истифода мебарад. DeepSpeech нисбат ба системаҳои анъанавӣ хеле содда аст ва дар айни замон сифати баландтари шинохтро дар ҳузури садои бегона фароҳам меорад.

Дар таҳия моделҳои акустикии анъанавӣ ва консепсияи фонемаҳо истифода намешаванд; ба ҷои ин, як системаи омӯзиши мошинӣ дар шабакаи хуби оптималии нейрон истифода мешавад, ки зарурати таҳияи ҷузъҳои ҷудогона барои моделсозии аномалияҳои мухталиф, ба монанди хусусиятҳои садо, ҳамовозӣ ва нутқро аз байн мебарад.

Китоб моделҳои омӯзишӣ, файлҳои намунавии садоиро пешниҳод мекунад ва воситаҳои шинохти сатри фармон.

Модели тайёр танҳо барои англисӣ ва чинӣ дода мешавад. Барои забонҳои дигар, шумо метавонед мувофиқи дастурҳои замимашуда, бо истифода аз маълумоти овози ҷамъкардаи лоиҳаи Умумии Система, худатон система омӯзед.

Ҳангоми модели барои забони англисӣ барои зеркашӣ пешниҳодшуда истифода мешавад, сатҳи хатогиҳои шинохтан дар DeepSpeech 7.06% ҳангоми истифодаи маҷмӯи озмоишии LibriSpeech мебошад.

Барои муқоиса, сатҳи хатои шинохтани инсон дар 5,83% тахмин зада мешавад.

Дар модели пешниҳодшуда, натиҷаи беҳтарини эътироф бо сабти тозаи овози мард бо лаҳҷаи амрикоӣ дар муҳити бидуни садоҳои бегона ба даст оварда мешавад.

Ба гуфтаи муаллифи Китобхонаи Шинохти Суханронии Воск, нуқсонҳои маҷмӯи овози умумӣ яктарафа будани маводи нутқ мебошанд (бартарии мардони 20-30-сола ва набудани мавод бо овози занон, кӯдакон ва пиронсолон), набудани тағирёбии луғат (такрори ҳамон ибораҳо) ва паҳн кардани сабтҳои MP3, ки ба таҳриф дучор меоянд.

Нуқсонҳои DeepSpeech аз иҷрои суст иборатанд ва истеъмоли баланди хотира дар декодер, инчунин захираҳои муҳим барои омӯзонидани модел (Mozilla системаеро истифода мебарад, ки 8 Quadro RTX 6000 GPU-ро бо ҳар кадоми он 24GB VRAM истифода мебарад).

Камбудии ин равиш дар он аст, ки барои шинохти баландсифат ва омӯзиши шабакаи нейронӣ, муҳаррики DeepSpeech миқдори зиёди маълумотро талаб мекунад гетерогенӣ дар шароити воқеӣ бо садоҳои гуногун ва дар ҳузури садоҳои табиӣ дикта шудааст.

Ин маълумотро лоиҳаи "Садои Умумӣ", ки дар Mozilla сохта шудааст, тартиб додааст, ки маҷмӯи маълумоти тасдиқшударо бо 1469 соат бо забони англисӣ, 692 бо забони олмонӣ, 554 ба забони фаронсавӣ, 105 соат бо забони русӣ ва 22 соат бо забони украинӣ таъмин мекунад.

Ҳангоми омӯзиши модели ниҳоии англисӣ барои DeepSpeech, ба ғайр аз Common Voice, маълумотҳо аз лоиҳаҳои LibriSpeech, Fisher ва Switchboard, инчунин тақрибан 1700 соати сабти барномаҳои транскрипсияи радио истифода мешаванд.

Дар байни тағирот дар филиали нав, имкони маҷбур кардани вазни калимаҳо нишон дода шудааст дар раванди рамзкушоӣ интихоб карда шудааст.

Он инчунин дастгирии платформаи Electron 9.2 ва татбиқи ихтиёрии механизми ба эътидол овардани қабатро (Layer Norm) ҳангоми омӯзиши шабакаи нейронӣ таъкид мекунад.

Бор кунед ва гиред

Фаъолият барои истифодаи мотор дар тахтаҳои LePotato, Raspberry Pi 3 ва Raspberry Pi 4, инчунин дар смартфонҳои Google Pixel 2, Sony Xperia Z Premium ва Nokia 1.3 кифоя аст.

Модулҳои тайёр пешниҳод карда мешаванд барои истифодаи Python, NodeJS, C ++ ва .NET барои ҳамгиро кардани функсияҳои шинохтани нутқ ба барномаҳои худ (таҳиягарони тарафи сеюм модулҳоро барои Rust, Go ва V алоҳида омода кардаанд).


Мазмуни мақола ба принсипҳои мо риоя мекунад ахлоқи таҳрирӣ. Барои гузориш додани хато клик кунед ин ҷо.

Аваллин эзоҳро диҳед

Назари худро бинависед

Суроғаи почтаи электронии шумо нест, нашр карда мешавад.

*

*

  1. Масъул барои маълумот: Мигел Анхел Гатан
  2. Мақсади маълумот: Назорати СПАМ, идоракунии шарҳҳо.
  3. Қонунӣ: Розигии шумо
  4. Иртиботи маълумот: Маълумот ба шахсони сеюм расонида намешавад, ба истиснои ӯҳдадориҳои қонунӣ.
  5. Нигоҳдории маълумот: Пойгоҳи додаҳо аз ҷониби Occentus Networks (ИА) ҷойгир карда шудааст
  6. Ҳуқуқҳо: Ҳар лаҳза шумо метавонед маълумоти худро маҳдуд, барқарор ва нест кунед.

bool (ҳақиқӣ)