Huma ħarġu l-kodiċi sors ta 'Whisper, sistema awtomatika ta' rikonoxximent tad-diskors

whisper

Whisper hija sistema awtomatika ta 'rikonoxximent tad-diskors

Il-proġett reċentement OpenAI, li tiżviluppa proġetti pubbliċi fil-qasam tal-intelliġenza artifiċjali, ippubblika aħbarijiet relatati mas-sistema ta’ rikonoxximent tal-vuċi whisper, li hija a sistema awtomatika ta' rikonoxximent tad-diskors (ASR) imħarreġ fuq 680.000 siegħa ta’ dejta sorveljata multilingwi u multitasking miġbura mill-web.

Huwa sostnut li għad-diskors bl-Ingliż, is-sistema tipprovdi livelli ta 'affidabilità ta' rikonoxximent awtomatiku u preċiżjoni qrib ir-rikonoxximent tal-bniedem.

Aħna nuru li l-użu ta’ dataset daqshekk kbir u divers iwassal għal robustezza akbar għall-aċċenti, l-istorbju fl-isfond, u l-lingwaġġ tekniku. Barra minn hekk, tippermetti traskrizzjoni f'diversi lingwi, kif ukoll traduzzjoni ta 'dawk il-lingwi għall-Ingliż. Aħna mudelli ta 'sors miftuħ u kodiċi ta' inferenza li jservu bħala l-pedament għall-bini ta 'applikazzjonijiet utli u għal riċerka futura dwar l-ipproċessar robust tad-diskors.

Dwar il-mudell (kif diġà msemmi) imħarreġ bl-użu ta’ 680 siegħa ta’ data tal-vuċi miġbura minn diversi kollezzjonijiet li jkopru lingwi u oqsma differenti. Madwar 1/3 tad-dejta tal-vuċi involuta fit-taħriġ hija f'lingwi oħra għajr l-Ingliż.

Is-sistema proposta jittratta b'mod korrett sitwazzjonijiet bħal pronunzja b'aċċent, il-preżenza ta' storbju fl-isfond u l-użu ta' lingwaġġ tekniku. Minbarra li tittraskrivi d-diskors f'test, is-sistema tista 'wkoll tittraduċi diskors minn lingwa arbitrarja għall-Ingliż u tiskopri d-dehra tad-diskors fil-fluss tal-awdjo.

Mudelli huma mħarrġa f'żewġ rappreżentazzjonijiet: mudell għall-lingwa Ingliża u mudell multilingwi li jappoġġja l-Ispanjol, ir-Russu, it-Taljan, il-Ġermaniż, il-Ġappuniż, l-Ukrajna, il-Belarus, iċ-Ċiniż, u lingwi oħra. Min-naħa tagħha, kull opinjoni hija maqsuma f'għażliet 5, li huma differenti fid-daqs u n-numru ta 'parametri koperti fil-mudell.

L-arkitettura Whisper hija approċċ sempliċi minn tarf sa tarf, implimentat bħala transformer encoder-decoder. L-awdjo tad-dħul huwa maqsum f'biċċiet ta '30 sekonda, konvertit fi spettrogramma log-Mel, u mbagħad mgħoddi għal encoder. Decoder huwa mħarreġ biex ibassar is-sottotitolu korrispondenti tat-test, imqassam b'tokens speċjali li jidderieġu l-mudell uniku biex iwettaq kompiti bħall-identifikazzjoni tal-lingwa, timestamps fil-livell tas-sentenza, traskrizzjoni tad-diskors multilingwi, u traduzzjoni tad-diskors għall-Ingliż.

Iktar ma jkun kbir id-daqs, iktar ikun għoli l-preċiżjoni u l-kwalità tar-rikonoxximent, iżda wkoll iktar ikunu għoljin ir-rekwiżiti għad-daqs tal-memorja tal-vidjo tal-GPU u inqas tkun il-prestazzjoni. Pereżempju, l-għażla minima tinkludi 39 miljun parametru u teħtieġ 1 GB ta 'memorja tal-vidjo, filwaqt li l-għażla massima tinkludi 1550 biljun parametri u teħtieġ 10 GB ta' memorja tal-vidjo. Il-varjant minimu huwa 32 darba aktar mgħaġġel mill-massimu.

Is-sistema tuża l-arkitettura tan-netwerk newrali "Transformer", li jinkludi encoder u decoder li jinteraġixxu ma 'xulxin. L-awdjo huwa maqsum f'biċċiet ta '30 sekonda, li huma kkonvertiti fi spettrogramma log-Mel u mibgħuta lill-encoder.

Ir-riżultat tax-xogħol tal-encoder jintbagħat lid-decoder, li tbassar rappreżentazzjoni tat-test imħallta ma 'tokens speċjali li jippermettu li jissolvew ħidmiet bħall-iskoperta tal-lingwa, il-kontabilità tal-kronoloġija tal-pronunzja tas-sentenza, it-traskrizzjoni tad-diskors f'lingwi differenti u t-traduzzjoni bl-Ingliż f'mudell ġenerali.

Ta’ min isemmi li l-prestazzjoni ta’ Whisper tvarja ħafna skont il-lingwa, għalhekk dik li tippreżenta fehim aħjar hija l-Ingliż, li għandu erba’ verżjonijiet bl-Ingliż biss, li, bħall-mudelli l-oħra ta’ lingwi oħra, joffru vantaġġi u żvantaġġi. ta 'veloċità u preċiżjoni.

Fl-aħħarnett Jekk inti interessat li tkun taf aktar dwarha, tista 'tiċċekkja l-pubblikazzjoni oriġinali fi din ir-rabta, filwaqt li jekk inti interessat fil-kodiċi tas-sors u l-mudelli mħarrġa tista’ tikkonsultahom fuq din ir-rabta

Kodiċi ta 'implimentazzjoni ta' referenza bbażat fuq il-qafas PyTorch u sett ta 'mudelli diġà mħarrġa huma miftuħa, lesti biex jintużaw. Il-kodiċi huwa sors miftuħ taħt il-liċenzja MIT u ta 'min isemmi li l-użu tal-librerija ffmpeg huwa meħtieġ.


Il-kontenut tal-artikolu jaderixxi mal-prinċipji tagħna ta ' etika editorjali. Biex tirrapporta żball ikklikkja hawn.

Kun l-ewwel li tikkummenta

Ħalli l-kumment tiegħek

Your email address mhux se jkun ippubblikat.

*

*

  1. Responsabbli għad-dejta: Miguel Ángel Gatón
  2. Għan tad-dejta: Kontroll SPAM, ġestjoni tal-kummenti.
  3. Leġittimazzjoni: Il-kunsens tiegħek
  4. Komunikazzjoni tad-dejta: Id-dejta ma tiġix ikkomunikata lil partijiet terzi ħlief b'obbligu legali.
  5. Ħażna tad-dejta: Bażi tad-dejta ospitata minn Occentus Networks (UE)
  6. Drittijiet: Fi kwalunkwe ħin tista 'tillimita, tirkupra u tħassar l-informazzjoni tiegħek.