D'eisigh siad cód foinse Whisper, córas uathaitheanta cainte

Whisper

Is córas uathoibríoch aitheantais cainte é Whisper

An tionscadal le déanaí OpenAI, a fhorbraíonn tionscadail phoiblí i réimse na hintleachta saorga, Tá nuacht foilsithe aige a bhaineann leis an gcóras aitheantais gutha cogar, atá a córas uathaitheanta cainte (ASR) oilte ar 680.000 uair an chloig de shonraí ilteangacha faoi mhaoirseacht iltascála a bhailítear ón ngréasán.

Maítear go soláthraíonn an córas leibhéil d’iontaofacht aitheantais uathoibríoch agus cruinnis gar d’aitheantas daonna do chaint Bhéarla.

Léirímid go n-eascraíonn úsáid a bhaint as tacar sonraí atá chomh mór agus chomh héagsúil sin le láidreacht níos fearr maidir le variant, torann cúlra agus teanga theicniúil. Ina theannta sin, ceadaíonn sé trascríobh i dteangacha éagsúla, chomh maith le haistriú na dteangacha sin go Béarla. Is samhlacha foinse oscailte agus cód tátail muid a fheidhmíonn mar bhunús le feidhmchláir úsáideacha a thógáil agus le haghaidh taighde amach anseo ar phróiseáil láidir cainte.

Maidir leis an tsamhail (mar a luadh cheana) oilte ag baint úsáide as 680 uair an chloig de shonraí gutha a bhailítear ó bhailiúcháin éagsúla a chlúdaíonn teangacha agus réimsí ábhair éagsúla. Tá thart ar 1/3 de na sonraí gutha a bhaineann leis an oiliúint i dteangacha eile seachas an Béarla.

An córas beartaithe láimhseálann sé i gceart cásanna cosúil le fuaimniú accented, láithreacht torainn chúlra agus úsáid béarlagair theicniúil. Chomh maith le caint a thras-scríobh go téacs, is féidir leis an gcóras urlabhra a aistriú ó theanga treallach go Béarla agus cuma na cainte sa sruth fuaime a bhrath.

Cuirtear oiliúint ar mhúnlaí in dhá léiriú: múnla don Bhéarla agus múnla ilteangach a thacaíonn le Spáinnis, Rúisis, Iodáilis, Gearmáinis, Seapáinis, Úcráinis, Bealarúisis, Sínis agus teangacha eile. Ina dhiaidh sin, roinntear gach radharc i 5 rogha, atá difriúil i méid agus líon na bparaiméadar atá clúdaithe sa mhúnla.

Is cur chuige simplí deireadh le deireadh é ailtireacht Whisper, a chuirtear i bhfeidhm mar chlaochladán ionchódóra-díchódóra. Roinntear an fhuaim ionchuir ina smután 30 soicind, tiontaítear é go speictream log-Mel, agus ansin cuirtear ar aghaidh chuig ionchódóir í. Déantar díchódóir a oiliúint chun an fotheideal téacs comhfhreagrach a thuar, agus comharthaí speisialta eatarthu a threoraíonn an tsamhail uathúil chun tascanna a dhéanamh ar nós aithint teanga, stampaí ama ar leibhéal na habairte, trascríobh cainte ilteangach, agus aistriúchán cainte go Béarla.

Dá mhéad an méid, is airde an cruinneas aitheantais agus cáilíocht, ach freisin is airde na ceanglais maidir le méid cuimhne físeán GPU agus is ísle an fheidhmíocht. Mar shampla, cuimsíonn an rogha íosta 39 milliún paraiméadair agus éilíonn sé 1 GB de chuimhne físeáin, agus cuimsíonn an rogha uasta 1550 billiún paraiméadair agus éilíonn sé 10 GB de chuimhne físeáin. Tá an t-íosathraitheach 32 uair níos tapúla ná an t-uasmhéid.

Úsáideann an córas ailtireacht líonra néaraíoch “Transformer”, a chuimsíonn ionchódóir agus díchódóir a idirghníomhaíonn lena chéile. Roinntear an fhuaim ina smután 30 soicind, a thiontaítear go speictream log-Mel agus a sheoltar chuig an ionchódóir.

Seoltar toradh obair an ionchódóra chuig an díchódóir, a thuar léiriú téacs measctha le comharthaí speisialta a cheadaíonn tascanna a réiteach cosúil le braite teanga, cuntasaíocht croineolaíocht fuaimniú abairte, trascríobh cainte i dteangacha éagsúla agus aistriúchán Béarla i múnla ginearálta.

Is fiú a lua go n-athraíonn feidhmíocht Whisper go mór ag brath ar an teanga, agus mar sin is é an Béarla an ceann a thugann tuiscint níos fearr, nach bhfuil ach ceithre leagan i mBéarla, a thairgeann buntáistí agus míbhuntáistí, cosúil le samhlacha teangacha eile. luas agus cruinneas.

Ar deireadh Má tá suim agat níos mó a fháil amach faoi, is féidir leat an bunfhoilseachán a sheiceáil i an nasc seo, agus má tá suim agat sa chód foinse agus sna samhlacha oilte is féidir leat iad a fheiceáil ag an nasc seo

Tá cód cur chun feidhme tagartha atá bunaithe ar chreat PyTorch agus sraith samhlacha atá oilte cheana féin oscailte, réidh le húsáid. Tá an cód foinse oscailte faoin gceadúnas MIT agus is fiú a lua go bhfuil gá le húsáid na leabharlainne ffmpeg.


Cloíonn ábhar an ailt lenár bprionsabail eitic eagarthóireachta. Chun earráid a thuairisciú cliceáil anseo.

Bí ar an chéad trácht

Fág do thrácht

Ní thabharfar do sheoladh r-phoist a fhoilsiú.

*

*

  1. Freagrach as na sonraí: Miguel Ángel Gatón
  2. Cuspóir na sonraí: SPAM a rialú, bainistíocht trácht.
  3. Legitimation: Do thoiliú
  4. Na sonraí a chur in iúl: Ní chuirfear na sonraí in iúl do thríú páirtithe ach amháin trí oibleagáid dhlíthiúil.
  5. Stóráil sonraí: Bunachar sonraí arna óstáil ag Occentus Networks (EU)
  6. Cearta: Tráth ar bith is féidir leat do chuid faisnéise a theorannú, a aisghabháil agus a scriosadh.