Waxay sii daayeen koodhka isha ee Whisper, habka aqoonsiga hadalka tooska ah

Weyn

Shaqsigu waa habka aqoonsiga hadalka oo toos ah

Mashruuca dhawaan OpenAI, kaas oo horumariya mashaariicda dadweynaha ee dhinaca sirdoonka macmal ah. ayaa daabacay war la xidhiidha nidaamka aqoonsiga codka xan, kaas oo ah a Habka aqoonsiga hadalka tooska ah (ASR) lagu tababaray 680.000 saacadood oo luuqado badan ah, xog la kormeero oo hawlo badan laga soo ururiyay shabakadda.

Waxaa lagu andacoonayaa in hadalka Ingiriisiga, nidaamku bixiyo heerar aqoonsi oo toos ah isku halaynta iyo saxnaanta u dhow aqoonsiga aadanaha.

Waxaan tusnay in adeegsiga xog-ururintaas ballaaran oo kala duwan ay horseeddo adkeysi weyn xagga lahjadaha, dhawaaqa asalka, iyo luqadda farsamada. Intaa waxaa dheer, waxay u ogolaataa in lagu qoro luqado kala duwan, iyo sidoo kale tarjumaada luqadahaas Ingiriisi. Waxaan nahay moodallo il furan iyo koodhka tixraaca oo u adeega sida aasaaska dhismaha codsiyada waxtarka leh iyo cilmi-baarista mustaqbalka ee habaynta hadalka adag.

Ku saabsan qaabka (sida horeba loo sheegay) la tababaray iyadoo la isticmaalayo 680 saacadood ee xogta codka laga soo ururiyay ururin kala duwan oo daboolaya luqado iyo mawduucyo kala duwan. Qiyaastii 1/3 ee xogta codka ee ku lug leh tababarku waxay ku qoran yihiin luqado aan Ingiriisi ahayn.

Nidaamka la soo jeediyey si sax ah u xalliyaa xaaladaha sida ku dhawaaqida dhawaaqa, joogitaanka dhawaaqa asalka ah iyo isticmaalka jargon farsamada. Marka laga soo tago in hadalka lagu qoro qoraal, nidaamku waxa uu sidoo kale u tarjumi karaa hadalka luqadda gardarrada ah oo Ingiriisi iyo in la ogaado muuqaalka hadalka ee qulqulka maqalka.

Moodooyinka waxaa lagu tababaray laba qaab oo kala ah: Qaabka luqadda Ingiriisiga iyo qaab luqado badan leh oo taageera Isbaanish, Ruush, Talyaani, Jarmal, Jabbaan, Yukreeniyaan, Belarusiyaanka, Shiinaha, iyo luqadaha kale. Dhanka kale, aragti kasta waxaa loo qaybiyaa 5 doorasho, kuwaas oo ku kala duwan cabbirka iyo tirada cabbirrada lagu daboolay qaabka.

Nashqada Whisper waa hab fudud oo dhammaad-ilaa-dhammaad ah, oo loo hirgeliyay beddelka cod-dedejiyaha. Codka gelinta waxa loo kala qaybiyaa 30-ilbiriqsi, waxa loo rogaa log-Mel spectrogram, ka dibna loo gudbiyaa cod-bixiyaha. Codeeyaha waxaa loo tababaray inuu saadaaliyo qoraal hoosaadka u dhigma, is dhex galiyay calaamado gaar ah oo haga qaabka gaarka ah si loo qabto hawlaha sida aqoonsiga luqadda, jaantusyada heerka jumlada, qorista luqadaha badan, iyo tarjumaada hadalka ee Ingiriisiga.

Baaxadda weyn, ayaa sare u qaadaysa saxnaanta aqoonsiga iyo tayada, laakiin sidoo kale waxay sare u kacdaa shuruudaha xajmiga xusuusta fiidiyowga GPU iyo hoos u dhigista waxqabadka. Tusaale ahaan, ikhtiyaarka ugu yar waxaa ka mid ah 39 milyan oo cabbir wuxuuna u baahan yahay 1 GB oo xusuusta fiidiyowga ah, halka ikhtiyaarka ugu badan uu ku jiro 1550 bilyan oo cabbir wuxuuna u baahan yahay 10 GB oo xusuusta fiidiyowga ah. Kala duwanaanshaha ugu yar ayaa 32 jeer ka dheereeya inta ugu badan.

Nidaamku wuxuu isticmaalaa qaab dhismeedka shabakada neerfaha "Transformer", Kaas oo ay ku jiraan cod-bixiye iyo qalab-dejiyaha is-dhex-galeya midba midka kale. Codka waxaa loo kala qaybiyaa 30-ilbiriqsi, kuwaas oo loo rogo spectrogram-log-Mel oo loo diro cod-bixiyaha.

Natiijada shaqada cod-bixiyaha ayaa loo diraa codeeyaha, kaas oo saadaaliya matalaad qoraal ah oo lagu daray calaamado gaar ah oo u oggolaanaya in lagu xalliyo hawlaha sida ogaanshaha luqadda, xisaabinta taariikhda dhawaaqa jumlada, qoraalka hadalka ee luuqado kala duwan iyo tarjumaadda Ingiriisiga ee qaabka guud.

Waxaa xusid mudan in wax qabadka Whisper uu aad u kala duwan yahay iyadoo ku xiran luqadda, sidaas darteed kan soo bandhigaya faham wanaagsan waa Ingiriisi, kaas oo ka kooban afar qaybood oo Ingiriisiga ah, kaas oo, sida noocyada kale ee luqadaha kale, bixiya faa'iidooyinka iyo khasaaraha xawaaraha iyo saxnaanta.

Finalmente Haddii aad xiisaynayso inaad waxbadan ka ogaato, waxaad ka eegi kartaa daabacaadda asalka ah xidhiidhkan, halka haddii aad xiisaynayso koodhka isha iyo moodooyinka la tababaray waxaad kala tashan kartaa iyaga isku xirkaan

Xeerka hirgelinta tixraaca ee ku salaysan qaabka PyTorch iyo noocyo hore loo tababaray ayaa furan, diyaar u ah in la isticmaalo. Koodhku waa il furan oo hoos timaada shatiga MIT waxaana xusid mudan in isticmaalka maktabadda ffmpeg loo baahan yahay.


Noqo kuwa ugu horreeya ee faallo bixiya

Ka tag faalladaada

cinwaanka email aan la daabacin doonaa. Beeraha loo baahan yahay waxaa lagu calaamadeeyay la *

*

*

  1. Masuul ka ah xogta: Miguel Ángel Gatón
  2. Ujeedada xogta: Xakamaynta SPAM, maaraynta faallooyinka.
  3. Sharci: Oggolaanshahaaga
  4. Isgaarsiinta xogta: Xogta looma gudbin doono dhinacyada saddexaad marka laga reebo waajibaadka sharciga ah.
  5. Kaydinta xogta: Macluumaadka ay martigelisay Shabakadaha Occentus (EU)
  6. Xuquuqda: Waqti kasta oo aad xadidi karto, soo ceshan karto oo tirtiri karto macluumaadkaaga.