Sun fitar da lambar tushe na Whisper, tsarin gane magana ta atomatik

Whisper

Wawasi shine tsarin gane magana ta atomatik

Aikin kwanan nan BABI, wanda ke haɓaka ayyukan jama'a a fagen ilimin ɗan adam, ya buga labarai mai alaka da tsarin tantance murya rada, wanda shine a Tsarin gane magana ta atomatik (ASR) an horar da sa'o'i 680.000 na harsuna da yawa, bayanan kulawa da ayyuka da yawa da aka tattara daga gidan yanar gizo.

An yi iƙirarin cewa don magana ta Ingilishi, tsarin yana ba da matakan amincin fitarwa ta atomatik da daidaito kusa da sanin ɗan adam.

Muna nuna cewa yin amfani da irin wannan babban saitin bayanai daban-daban yana haifar da ƙarfi ga ƙararrawa, hayaniyar baya, da harshen fasaha. Bugu da ƙari, yana ba da damar kwafi a cikin harsuna daban-daban, da kuma fassarar waɗannan harsunan zuwa Turanci. Mu buɗaɗɗen ƙira ne da lambar ƙima waɗanda ke aiki azaman tushe don gina aikace-aikace masu amfani da kuma bincike na gaba kan sarrafa magana mai ƙarfi.

Game da samfurin (kamar yadda aka riga aka ambata) horarwa ta amfani da sa'o'i 680 na bayanan murya da aka tattara daga tarin abubuwa daban-daban da suka shafi harsuna daban-daban da wuraren batutuwa. Kusan 1/3 na bayanan muryar da ke cikin horo yana cikin yarukan ban da Ingilishi.

Tsarin da aka gabatar daidai yake tafiyar da yanayi kamar ƙarar magana, kasancewar amo na baya da kuma amfani da jargon fasaha. Baya ga rubuta magana zuwa rubutu, tsarin zai kuma iya fassara magana daga yare na son rai zuwa Turanci da gano bayyanar magana a cikin rafin sauti.

Ana horar da samfura a cikin wakilci biyu: samfurin Ingilishi da ƙirar harsuna da yawa waɗanda ke tallafawa Mutanen Espanya, Rashanci, Italiyanci, Jamusanci, Jafananci, Ukrainian, Belarushiyanci, Sinanci, da sauran harsuna. Bi da bi, kowane ra'ayi ya kasu kashi 5 zažužžukan, wanda ya bambanta da girman da adadin sigogi da aka rufe a cikin samfurin.

Tsarin gine-ginen Whisper hanya ce mai sauƙi daga ƙarshen zuwa-ƙarshe, ana aiwatar da ita azaman mai canzawa-dikodi. Ana raba sautin shigarwar zuwa guntu na daƙiƙa 30, ana jujjuya shi zuwa sikirin log-Mel, sannan a wuce zuwa mai rikodin. An horar da mai ƙididdigewa don tsinkayar fassarar fassarar rubutu mai dacewa, wanda aka haɗa tare da alamu na musamman waɗanda ke jagorantar ƙirar musamman don aiwatar da ayyuka kamar tantance harshe, tambura matakin jimla, kwafin magana da harsuna da yawa, da fassarar magana zuwa Turanci.

Girman girman girman, mafi girman daidaito da inganci, amma kuma mafi girman buƙatun don girman ƙwaƙwalwar bidiyo na GPU da ƙananan aikin. Misali, mafi ƙarancin zaɓi ya haɗa da sigogi miliyan 39 kuma yana buƙatar 1 GB na ƙwaƙwalwar bidiyo, yayin da matsakaicin zaɓi ya ƙunshi sigogi biliyan 1550 kuma yana buƙatar 10 GB na ƙwaƙwalwar bidiyo. Mafi ƙarancin bambance-bambancen shine sau 32 cikin sauri fiye da matsakaicin.

Tsarin yana amfani da gine-ginen cibiyar sadarwa na "Transformer", wanda ya haɗa da encoder da na'urar tantancewa da ke hulɗa da juna. An raba sautin zuwa guntu na daƙiƙa 30, waɗanda aka juyar da su zuwa spectrogram log-Mel kuma a aika zuwa mai rikodin.

Ana aika sakamakon aikin encoder zuwa mai yankewa, wanda ke annabta wakilcin rubutu gauraye da alamu na musamman waɗanda ke ba da damar warware ayyuka kamar gano harshe, lissafin lokacin furci na jimla, kwafin magana a cikin harsuna daban-daban da fassarar Ingilishi a cikin ƙirar gabaɗaya.

Yana da kyau a ambata cewa wasan kwaikwayo na Whisper ya bambanta sosai dangane da harshen, don haka wanda ke ba da kyakkyawar fahimta shine Ingilishi, wanda ke da nau'i hudu kawai a cikin Ingilishi, wanda, kamar sauran nau'ikan wasu harsuna, suna ba da fa'ida da rashin amfani. sauri da daidaito.

Finalmente Idan kuna da sha'awar sanin game da shi, zaku iya duba littafin asali a ciki wannan haɗin, yayin da idan kuna sha'awar lambar tushe da samfuran horarwa za ku iya tuntuɓar su a wannan mahadar

Lambar aiwatar da bita bisa tsarin PyTorch da jerin samfuran da aka riga aka horar suna buɗe, shirye don amfani. Lambar buɗaɗɗen tushe ce ƙarƙashin lasisin MIT kuma yana da kyau a faɗi cewa ana buƙatar amfani da ɗakin karatu na ffmpeg.


Kasance na farko don yin sharhi

Bar tsokaci

Your email address ba za a buga. Bukata filayen suna alama da *

*

*

  1. Wanda ke da alhakin bayanan: Miguel Ángel Gatón
  2. Manufar bayanan: Sarrafa SPAM, sarrafa sharhi.
  3. Halacci: Yarda da yarda
  4. Sadarwar bayanan: Ba za a sanar da wasu bayanan ga wasu kamfanoni ba sai ta hanyar wajibcin doka.
  5. Ajiye bayanai: Bayanin yanar gizo wanda Occentus Networks (EU) suka dauki nauyi
  6. Hakkoki: A kowane lokaci zaka iyakance, dawo da share bayanan ka.