Mozilla Waxay Soo Bandhigtay Mashiinka Aqoonsiga Hadalka DeepSpeech 0.9

Qoto Dheer1

Daahfurka ayaa la daabacay mishiinka aqoonsiga codka DeepSpeech 0.9 oo ay soo saartay Mozilla, kaasoo fuliya qaab dhismeedka Aqoonsiga hadalka isla magaca ay soo jeediyeen baarayaasha Baidu.

Fulinta waxaa lagu qoraa Python iyadoo la adeegsanayo mashiinka barashada mashiinka TensorFlow waxaana lagu qaybiyaa liisanka bilaashka ah ee MPL 2.0.

Ku saabsan DeepSpeech

DeepSpeech wuxuu ka kooban yahay laba nooc: nooc loomana baahno iyo dikoder. Qaabka austustic wuxuu adeegsadaa farsamooyinka barashada mashiinka qoto dheer si loo xisaabiyo itimaalka in astaamo gaar ah ay ku jiraan codka soo galinta.

Soo-saaraha wuxuu adeegsadaa algorithm raadinta ray si uu ugu beddelo xogta suurtagalka astaamaha inuu matalo qoraal ahaan. DeepSpeech way ka fududdahay nidaamyada soo jireenka ah isla mar ahaantaana waxay bixisaa aqoonsi tayo sare leh iyadoo ay jirto buuq shisheeye.

Horumarku ma adeegsanayo moodellada acoustic dhaqameedka iyo fikradda codadka; taa bedelkeed, nidaam barasho mashiin ku salaysan neerfayaasha habka neerfayaasha oo si fiican loo habeeyay ayaa la isticmaalaa, taas oo meesha ka saareysa baahida loo qabo in la soo saaro qaybo kala duwan si loogu daydo cilado kala duwan sida buuqa, dhawaaqa, iyo astaamaha hadalka.

Qalabka waxay bixisaa moodello tababbaran, muunado faylalka codka ah iyo qalabka aqoonsiga xariiqda taliska.

Nooca la dhammeeyay ayaa loo bixiyaa Ingiriisiga iyo Shiinaha oo keliya. Luuqadaha kale, waxaad naftaada ku baran kartaa nidaamka adoo raacaya tilmaamaha ku lifaaqan, adoo adeegsanaya xogta codka ee ay soo aruuriyeen mashruuca Codka Guud.

Goorma qaabka diyaarka u ah isticmaalka luqadda Ingiriisiga ee loogu talagalay soo dejinta ayaa loo isticmaalaa, heerka qaladaadka aqoonsiga ee DeepSpeech waa 7.06% marka la qiimeeyo iyadoo la isticmaalayo qolka tijaabada LibriSpeech.

Marka la barbardhigo, heerka qaladka aqoonsiga aadanaha waxaa lagu qiyaasaa 5,83%.

Qaabka la soo jeediyey, natiijada ugu wanaagsan ee aqoonsiga waxaa lagu gaaraa duubis nadiif ah oo ah cod lab ah oo leh lahjad Mareykan ah oo ku taal deegaan aan lahayn qeylo dheeri ah.

Sida uu sheegayo qoraaga Maktabada Aqoonsiga Hadalka ee Vosk, faa'iido darrooyinka loo qabo Codka Wadajirka ah waa hal dhinac oo ah hadalka hadalka (u badnaanta ragga da'dooda 20 ilaa 30 iyo maqnaanshaha maqalka codka haweenka, carruurta iyo waayeelka), la'aanta kala duwanaanshaha ereyada (ku celcelinta isla jumladaha) iyo qaybinta cajaladaha MP3 ee u nugul khalkhalka.

Faa'iido darrooyinka DeepSpeech waxaa ka mid ah waxqabadka liita iyo isticmaalka xasuusta sare ee decoder-ka, iyo waliba ilaha muhiimka ah ee lagu tababaro tusaalaha (Mozilla waxay isticmaashaa nidaam leh 8 Quadro RTX 6000 GPUs leh 24GB VRAM midkiiba).

Dhibaatada ka jirta qaabkani waa taas aqoonsi tayo sare leh iyo tababar shabakad neerfaha ah, mashiinka DeepSpeech waxay u baahan tahay xog tiro badan kaladuwan oo ku dhawaaqaya xaaladaha dhabta ah ee codadka kala duwan iyo joogitaanka sawaxanka dabiiciga ah.

Xogtaan waxaa soo ururiyey mashruuca Codka Guud ee lagu abuuray Mozilla, kaas oo bixiya xog la xaqiijiyey oo la dhigay 1469 saacadood oo Ingiriis ah, 692 Jarmal ah, 554 Faransiis ah, 105 saacadood oo Ruush ah iyo 22 saacadood oo Yukreeniyaan ah.

Markii la tababarayo tusaalaha ugu dambeeya ee Ingiriisiga ee loo yaqaan 'DeepSpeech', marka lagu daro Wadajirka Codka, xogta laga helo mashaariicda LibriSpeech, Fisher iyo Switchboard ayaa sidoo kale la adeegsadaa, iyo sidoo kale ku dhowaad 1700 saacadood oo duubitaanno ah oo lagu duubay barnaamijyada raadiyaha.

Inta udhaxeysa isbeddelada laanta cusub, suurtagalnimada in lagu qasbo culeyska ereyada waa la muujiyey la xushay inta lagu guda jiro hawsha qeexitaanka.

Waxay sidoo kale muujineysaa taageerada barnaamijka elektaroonigga ah ee 9.2 iyo hirgelinta ikhtiyaariga ah ee habka isu-hagaajinta lakabka (Layer Norm) markii la tababarayo shabakadda neerfaha.

Soo dejiso oo hel

Waxqabadka ayaa ku filan in lagu isticmaalo mootada looxyada LePotato, Raspberry Pi 3 iyo Raspberry Pi 4, iyo sidoo kale Google Pixel 2, Sony Xperia Z Premium iyo Nokia 1.3 casriga.

Qeybaha diyaarka ah ayaa la bixiyaa si loogu isticmaalo Python, NodeJS, C ++, iyo .NET si loogu daro barnaamijyada aqoonsiga hadalka barnaamijyadaada (soosaarayaasha dhinac saddexaad waxay leeyihiin qaybo kala duwan oo loo diyaariyey miridhku, Go, iyo V).


Ka tag faalladaada

cinwaanka email aan la daabacin doonaa. Beeraha loo baahan yahay waxaa lagu calaamadeeyay la *

*

*

  1. Masuul ka ah xogta: Miguel Ángel Gatón
  2. Ujeedada xogta: Xakamaynta SPAM, maaraynta faallooyinka.
  3. Sharci: Oggolaanshahaaga
  4. Isgaarsiinta xogta: Xogta looma gudbin doono dhinacyada saddexaad marka laga reebo waajibaadka sharciga ah.
  5. Kaydinta xogta: Macluumaadka ay martigelisay Shabakadaha Occentus (EU)
  6. Xuquuqda: Waqti kasta oo aad xadidi karto, soo ceshan karto oo tirtiri karto macluumaadkaaga.