Ular nutqni avtomatik aniqlash tizimi Whisperning manba kodini chiqardilar

Shivirlaydi

Whisper - bu nutqni avtomatik aniqlash tizimi

Loyiha yaqinda OpenAIsun'iy intellekt sohasida davlat loyihalarini ishlab chiqadigan, yangiliklar chop etdi ovozni aniqlash tizimi bilan bog'liq shivirlash, qaysi a avtomatik nutqni aniqlash tizimi (ASR) Internetdan to'plangan 680.000 XNUMX soatlik ko'p tilli, ko'p vazifali nazorat ostidagi ma'lumotlarga o'rgatilgan.

Ta'kidlanishicha, ingliz tilidagi nutq uchun tizim avtomatik tanib olish ishonchliligi va inson tanib olish darajasiga yaqin aniqlik darajasini ta'minlaydi.

Biz shuni ko'rsatamizki, bunday katta va xilma-xil ma'lumotlar to'plamidan foydalanish urg'u, fon shovqini va texnik tilning mustahkamligini oshiradi. Bundan tashqari, u turli tillarda transkripsiya qilish, shuningdek, ushbu tillarni ingliz tiliga tarjima qilish imkonini beradi. Biz ochiq kodli modellar va foydali ilovalar yaratish va nutqni mustahkam qayta ishlash bo'yicha kelajakdagi tadqiqotlar uchun asos bo'lib xizmat qiladigan xulosalar kodimiz.

Model haqida (yuqorida aytib o'tilganidek) 680 000 soatdan foydalangan holda o'qitilgan turli tillar va mavzularni qamrab oluvchi turli to'plamlardan to'plangan ovozli ma'lumotlar. Treningga jalb qilingan ovozli ma'lumotlarning taxminan 1/3 qismi ingliz tilidan boshqa tillarda.

Tavsiya etilgan tizim urg'uli talaffuz kabi vaziyatlarni to'g'ri hal qiladi, fon shovqinining mavjudligi va texnik jargondan foydalanish. Tizim nutqni matnga ko‘chirishdan tashqari, nutqni ixtiyoriy tildan ingliz tiliga ham tarjima qilishi va audio oqimidagi nutqning ko‘rinishini aniqlashi mumkin.

Modellar ikkita ko'rinishda o'qitiladi: ingliz tili uchun model va ispan, rus, italyan, nemis, yapon, ukrain, belarus, xitoy va boshqa tillarni qo'llab-quvvatlaydigan ko'p tilli model. O'z navbatida, har bir ko'rinish 5 ta variantga bo'linadi, ular hajmi va modelda qamrab olingan parametrlar soni bilan farqlanadi.

Whisper arxitekturasi - bu kodlovchi-dekoder transformatori sifatida amalga oshirilgan oddiy uchdan-end yondashuv. Kirish ovozi 30 soniyali bo'laklarga bo'linadi, log-Mel spektrogrammasiga aylantiriladi va keyin kodlovchiga o'tkaziladi. Dekoder tilni identifikatsiya qilish, jumlalar darajasidagi vaqt belgilari, ko'p tilli nutq transkripsiyasi va nutqni ingliz tiliga tarjima qilish kabi vazifalarni bajarishga noyob modelni yo'naltiruvchi maxsus tokenlar bilan kesishgan tegishli matn subtitrlarini bashorat qilishga o'rgatilgan.

Hajmi qanchalik katta bo'lsa, tanib olish aniqligi va sifati shunchalik yuqori bo'ladi, lekin ayni paytda GPU video xotira hajmiga talablar qanchalik baland va unumdorligi past bo'ladi. Misol uchun, minimal variant 39 million parametrni o'z ichiga oladi va 1 Gb video xotirani talab qiladi, maksimal variant esa 1550 milliard parametrni o'z ichiga oladi va 10 Gb video xotirani talab qiladi. Minimal variant maksimaldan 32 baravar tezroq.

Tizim "Transformer" neyron tarmoq arxitekturasidan foydalanadi, bir-biri bilan o'zaro ta'sir qiluvchi kodlovchi va dekoderni o'z ichiga oladi. Ovoz 30 soniyali bo'laklarga bo'linadi, ular log-Mel spektrogrammasiga aylantiriladi va kodlovchiga yuboriladi.

Kodlovchining ish natijasi dekoderga yuboriladi, bu tilni aniqlash, jumlalarni talaffuz qilish xronologiyasini hisobga olish, turli tillarda nutq transkripsiyasi va umumiy modelda ingliz tiliga tarjima kabi vazifalarni hal qilishga imkon beruvchi maxsus belgilar bilan aralashtirilgan matn ko'rinishini bashorat qiladi.

Shuni ta'kidlash kerakki, Whisper-ning ishlashi tilga qarab juda katta farq qiladi, shuning uchun tushunish yaxshiroq bo'lgan ingliz tilidir, uning faqat ingliz tilida to'rtta versiyasi mavjud bo'lib, u boshqa tillarning boshqa modellari kabi afzallik va kamchiliklarni taklif qiladi. tezlik va aniqlik.

FINALMENTE Agar siz bu haqda ko'proq bilishni xohlasangiz, asl nashrni tekshirishingiz mumkin Ushbu havola, agar siz manba kodi va o'qitilgan modellarga qiziqsangiz, ularga murojaat qilishingiz mumkin Ushbu havola

PyTorch tizimiga asoslangan mos yozuvlar dastur kodi va allaqachon o'qitilgan modellar to'plami ochiq, foydalanishga tayyor. Kod MIT litsenziyasi ostida ochiq manba hisoblanadi va shuni ta'kidlash kerakki, ffmpeg kutubxonasidan foydalanish talab etiladi.


Maqolaning mazmuni bizning printsiplarimizga rioya qiladi muharrirlik etikasi. Xato haqida xabar berish uchun bosing bu erda.

Birinchi bo'lib izohlang

Fikringizni qoldiring

Sizning email manzilingiz chop qilinmaydi.

*

*

  1. Ma'lumotlar uchun javobgardir: Migel Anxel Gaton
  2. Ma'lumotlarning maqsadi: SPAMni boshqarish, izohlarni boshqarish.
  3. Qonuniylashtirish: Sizning roziligingiz
  4. Ma'lumotlar haqida ma'lumot: qonuniy majburiyatlar bundan mustasno, ma'lumotlar uchinchi shaxslarga etkazilmaydi.
  5. Ma'lumotlarni saqlash: Occentus Networks (EU) tomonidan joylashtirilgan ma'lumotlar bazasi
  6. Huquqlar: istalgan vaqtda siz ma'lumotlaringizni cheklashingiz, tiklashingiz va o'chirishingiz mumkin.