Mozilla DeepSpeech 0.9 Nutqni aniqlash mexanizmini taqdim etadi

DeepSpeech1

Ishga tushirish nashr etildi ovozni aniqlash mexanizmi Mozilla tomonidan ishlab chiqilgan DeepSpeech 0.9arxitekturasini amalga oshiruvchi nutqni aniqlash Baidu tadqiqotchilari tomonidan taklif qilingan shu nom.

Amalga oshirish yordamida Python-da yozilgan mashinani o'rganish platformasi TensorFlow va bepul MPL 2.0 litsenziyasi ostida tarqatiladi.

DeepSpeech haqida

DeepSpeech ikkita quyi tizimdan iborat: akustik model va dekoder. Akustik model kirish tovushida ma'lum belgilar mavjudligini hisoblash uchun mashinani chuqur o'rganish usullaridan foydalanadi.

Dekoder belgilar ehtimolligi ma'lumotlarini matnli ko'rinishga aylantirish uchun nurlarni qidirish algoritmidan foydalanadi. DeepSpeech an'anaviy tizimlarga qaraganda ancha sodda va shu bilan birga begona shovqin mavjud bo'lganda tanib olishning yuqori sifatini ta'minlaydi.

Rivojlanish an'anaviy akustik modellardan va fonemalar tushunchasidan foydalanmaydi; buning o'rniga shovqin, aks-sado va nutq xususiyatlari kabi turli xil anomaliyalarni modellashtirish uchun alohida komponentlarni ishlab chiqish zaruratini bartaraf etadigan yaxshi optimallashtirilgan neyron tarmoqqa asoslangan mashinani o'rganish tizimidan foydalaniladi.

Kit o'qitilgan modellarni, ovozli fayllarning namunalarini taklif qiladi va buyruq satrini aniqlash vositalari.

Tayyor model faqat ingliz va xitoy tillarida taqdim etiladi. Boshqa tillar uchun siz "Umumiy ovoz" loyihasi tomonidan to'plangan ovozli ma'lumotlardan foydalanib, tizimni biriktirilgan ko'rsatmalarga muvofiq o'zingiz o'rganishingiz mumkin.

Qachon yuklab olish uchun taklif qilingan ingliz tilining foydalanishga tayyor modelidan foydalaniladi, LibriSpeech test to'plami yordamida baholanganda DeepSpeech-da tanib olish xatolarining darajasi 7.06% ni tashkil qiladi.

Taqqoslash uchun odamni tanib olishda xato darajasi 5,83% deb baholanmoqda.

Tavsiya etilgan modelda eng yaxshi tan olinadigan natijaga begona shovqinsiz muhitda amerikancha aksentli erkak ovozini toza yozib olish orqali erishiladi.

Vosk nutqni doimiy ravishda tanib olish kutubxonasi muallifining so'zlariga ko'ra, "Umumiy ovoz" to'plamining kamchiliklari nutq materialining bir tomonliligi (20-30 yoshdagi erkaklarning ustunligi va ayollar, bolalar ovozi bilan materialning etishmasligi va qariyalar), so'z boyligining o'zgaruvchanligi yo'qligi (bir xil iboralarni takrorlash) va buzilib ketishga moyil bo'lgan MP3 yozuvlarini tarqatish.

DeepSpeech-ning kamchiliklariga yomon ishlash kiradi va dekoderda yuqori xotira iste'moli, shuningdek modelni o'qitish uchun muhim resurslar (Mozilla har birida 8 Gb VRAM o'rnatilgan 6000 ta Quadro RTX 24 GPU o'rnatilgan tizimdan foydalanadi).

Ushbu yondashuvning salbiy tomoni shundaki neyron tarmoqni yuqori sifatli tan olish va o'qitish uchun, DeepSpeech dvigateli katta hajmdagi ma'lumotlarni talab qiladi turli xil ovozlar va tabiiy shovqinlar ishtirokida real sharoitlarda heterojenlik.

Ushbu ma'lumotlar Mozilla-da yaratilgan "Umumiy ovoz" loyihasi tomonidan tuzilgan bo'lib, tasdiqlangan ma'lumotlar to'plamini ingliz tilida 1469 soat, nemis tilida 692, frantsuz tilida 554, rus tilida 105 soat va ukrain tilida 22 soatni tashkil etadi.

DeepSpeech uchun ingliz tilidagi so'nggi modelni o'rgatish paytida, Common Voice-dan tashqari, LibriSpeech, Fisher va Switchboard loyihalaridan olingan ma'lumotlar, shuningdek, translyatsiya qilingan radio dasturlarining taxminan 1700 soatlik yozuvlari qo'shimcha ravishda qo'llaniladi.

Yangi filialdagi o'zgarishlar orasida, so'zlarning og'irligini majburlash imkoniyati ta'kidlangan dekodlash jarayonida tanlangan.

Shuningdek, u Electron 9.2 platformasini qo'llab-quvvatlashi va neyron tarmoqni o'qitishda qatlamni normallashtirish mexanizmini (Layer Norm) ixtiyoriy ravishda amalga oshirilishini ta'kidlaydi.

Yuklab oling va oling

Ishlash motorni LePotato, Raspberry Pi 3 va Raspberry Pi 4 taxtalarida, shuningdek Google Pixel 2, Sony Xperia Z Premium va Nokia 1.3 smartfonlarida ishlatish uchun etarli.

Taklif qilingan tayyor modullar nutqni aniqlash funktsiyalarini dasturlaringizga qo'shish uchun Python, NodeJS, C ++ va .NET uchun foydalanish (uchinchi tomon ishlab chiquvchilari Rust, Go va V uchun alohida tayyorlangan modullarga ega).


Maqolaning mazmuni bizning printsiplarimizga rioya qiladi muharrirlik etikasi. Xato haqida xabar berish uchun bosing bu erda.

Birinchi bo'lib izohlang

Fikringizni qoldiring

Sizning email manzilingiz chop qilinmaydi.

*

*

  1. Ma'lumotlar uchun javobgardir: Migel Anxel Gaton
  2. Ma'lumotlarning maqsadi: SPAMni boshqarish, izohlarni boshqarish.
  3. Qonuniylashtirish: Sizning roziligingiz
  4. Ma'lumotlar haqida ma'lumot: qonuniy majburiyatlar bundan mustasno, ma'lumotlar uchinchi shaxslarga etkazilmaydi.
  5. Ma'lumotlarni saqlash: Occentus Networks (EU) tomonidan joylashtirilgan ma'lumotlar bazasi
  6. Huquqlar: istalgan vaqtda siz ma'lumotlaringizni cheklashingiz, tiklashingiz va o'chirishingiz mumkin.