Walitoa msimbo wa chanzo wa Whisper, mfumo otomatiki wa utambuzi wa usemi

Whisper

Whisper ni mfumo otomatiki wa utambuzi wa usemi

Mradi huo hivi karibuni OpenAI, ambayo inakuza miradi ya umma katika uwanja wa akili ya bandia, imechapisha habari inayohusiana na mfumo wa utambuzi wa sauti Piga chenga, ambayo ni a mfumo otomatiki wa utambuzi wa usemi (ASR) wamefunzwa kwa saa 680.000 za data inayosimamiwa ya lugha nyingi na ya kufanya kazi nyingi iliyokusanywa kutoka kwa wavuti.

Inadaiwa kuwa kwa hotuba ya Kiingereza, mfumo hutoa viwango vya kutegemewa na usahihi wa utambuzi wa kiotomatiki karibu na utambuzi wa binadamu.

Tunaonyesha kuwa kutumia mkusanyiko mkubwa wa data kama huu husababisha uimara zaidi wa lafudhi, kelele za chinichini na lugha ya kiufundi. Kwa kuongezea, inaruhusu unukuzi katika lugha nyingi, na pia tafsiri kutoka kwa lugha hizo hadi Kiingereza. Sisi ni mifano ya vyanzo huria na msimbo wa maelekezo ambao hutumika kama msingi wa kuunda programu muhimu na kwa ajili ya utafiti wa siku zijazo kuhusu usindikaji thabiti wa hotuba.

Kuhusu mfano (kama ilivyotajwa tayari) mafunzo kwa kutumia masaa 680 data ya sauti iliyokusanywa kutoka kwa makusanyo mbalimbali yanayohusu lugha tofauti na maeneo ya masomo. Takriban 1/3 ya data ya sauti inayohusika katika mafunzo iko katika lugha zingine isipokuwa Kiingereza.

Mfumo uliopendekezwa hushughulikia kwa usahihi hali kama vile matamshi ya lafudhi, uwepo wa kelele ya nyuma na matumizi ya jargon ya kiufundi. Mbali na kunukuu usemi kuwa maandishi, mfumo unaweza pia kutafsiri hotuba kutoka lugha ya kiholela hadi Kiingereza na kugundua mwonekano wa usemi katika mkondo wa sauti.

Mifano hizo zimefunzwa katika uwakilishi mbili: mfano wa lugha ya Kiingereza na mtindo wa lugha nyingi unaotumia Kihispania, Kirusi, Kiitaliano, Kijerumani, Kijapani, Kiukreni, Kibelarusi, Kichina, na lugha nyinginezo. Kwa upande wake, kila mtazamo umegawanywa katika chaguzi 5, ambazo hutofautiana kwa ukubwa na idadi ya vigezo vinavyofunikwa katika mfano.

Usanifu wa Whisper ni mbinu rahisi ya kutoka-mwisho hadi mwisho, inayotekelezwa kama kibadilishaji cha kusimbuaji-simbuaji. Sauti ya ingizo imegawanywa katika visehemu vya sekunde 30, kubadilishwa kuwa spekrogramu ya log-Mel, na kisha kupitishwa kwa kisimbaji. Kisimbuaji hufunzwa kutabiri manukuu ya maandishi yanayolingana, yaliyounganishwa na tokeni maalum zinazoelekeza muundo wa kipekee kutekeleza kazi kama vile utambuzi wa lugha, mihuri ya muda ya kiwango cha sentensi, unukuzi wa hotuba kwa lugha nyingi na tafsiri ya usemi hadi Kiingereza.

Kadiri saizi inavyokuwa kubwa, ndivyo usahihi na ubora wa utambuzi unavyoongezeka, lakini pia ndivyo mahitaji ya juu ya ukubwa wa kumbukumbu ya video ya GPU na utendaji wa chini. Kwa mfano, chaguo la chini ni pamoja na vigezo milioni 39 na inahitaji 1 GB ya kumbukumbu ya video, wakati chaguo la juu ni pamoja na vigezo bilioni 1550 na inahitaji 10 GB ya kumbukumbu ya video. Kibadala cha chini ni mara 32 zaidi ya kiwango cha juu.

Mfumo hutumia usanifu wa mtandao wa neural wa "Transformer", ambayo ni pamoja na encoder na avkodare ambayo kuingiliana na kila mmoja. Sauti imegawanywa katika visehemu vya sekunde 30, ambavyo hubadilishwa kuwa spekrogramu ya log-Mel na kutumwa kwa kisimbaji.

Matokeo ya kazi ya encoder hutumwa kwa avkodare, ambayo hutabiri uwakilishi wa maandishi uliochanganywa na tokeni maalum zinazoruhusu kutatua kazi kama vile kutambua lugha, uhasibu wa mpangilio wa matamshi ya sentensi, unukuzi wa matamshi katika lugha tofauti na utafsiri wa Kiingereza katika muundo wa jumla.

Inafaa kutaja kwamba utendaji wa Whisper unatofautiana sana kulingana na lugha, kwa hivyo ile inayowasilisha ufahamu bora ni Kiingereza, ambayo ina matoleo manne tu kwa Kiingereza, ambayo, kama mifano mingine ya lugha zingine, hutoa faida na hasara za lugha. kasi na usahihi.

Hatimaye Ikiwa una nia ya kujua zaidi juu yake, unaweza kuangalia uchapishaji wa asili katika link hii, wakati ikiwa una nia ya msimbo wa chanzo na mifano iliyofunzwa unaweza kushauriana nao kiunga hiki

Msimbo wa utekelezaji wa marejeleo kulingana na mfumo wa PyTorch na seti ya miundo iliyofunzwa tayari iko wazi, tayari kutumika. Nambari hiyo ni chanzo wazi chini ya leseni ya MIT na inafaa kutaja kuwa utumiaji wa maktaba ya ffmpeg inahitajika.


Yaliyomo kwenye kifungu hicho yanazingatia kanuni zetu za maadili ya uhariri. Kuripoti kosa bonyeza hapa.

Kuwa wa kwanza kutoa maoni

Acha maoni yako

Anwani yako ya barua si kuchapishwa.

*

*

  1. Kuwajibika kwa data: Miguel Ángel Gatón
  2. Kusudi la data: Kudhibiti SpAM, usimamizi wa maoni.
  3. Uhalali: Idhini yako
  4. Mawasiliano ya data: Takwimu hazitawasilishwa kwa watu wengine isipokuwa kwa wajibu wa kisheria.
  5. Uhifadhi wa data: Hifadhidata iliyohifadhiwa na Mitandao ya Occentus (EU)
  6. Haki: Wakati wowote unaweza kupunguza, kuokoa na kufuta habari yako.