Liberaron el código fuente de Whisper, un sistema de reconocimiento automático de voz

Whisper ir automātiska runas atpazīšanas sistēma

Projekts nesen OpenAI, kas izstrādā publiskos projektus mākslīgā intelekta jomā, ir publicējis ziņas kas saistīti ar balss atpazīšanas sistēmu čuksti, kas ir a automātiskā runas atpazīšanas sistēma (ASR) apmācīts par 680.000 XNUMX stundu daudzvalodu, vairākuzdevumu uzraudzītiem datiem, kas savākti no tīmekļa.

Tiek apgalvots, ka angļu valodas runai sistēma nodrošina automātiskās atpazīšanas uzticamības un precizitātes līmeni, kas ir tuvu cilvēka atpazīšanai.

Mēs parādām, ka tik lielas un daudzveidīgas datu kopas izmantošana nodrošina lielāku noturību pret akcentiem, fona troksni un tehnisko valodu. Turklāt tas nodrošina transkripciju dažādās valodās, kā arī šo valodu tulkošanu angļu valodā. Mēs esam atvērtā pirmkoda modeļi un secinājumu kods, kas kalpo par pamatu noderīgu lietojumprogrammu izveidei un turpmākiem pētījumiem par spēcīgu runas apstrādi.

Par modeli (kā jau minēts) apmācīts, izmantojot 680 000 stundu balss datu, kas savākti no dažādām kolekcijām, kas aptver dažādas valodas un priekšmetu jomas. Apmēram 1/3 no apmācībā iesaistītajiem balss datiem ir citās valodās, nevis angļu valodā.

Ierosinātā sistēma pareizi risina tādas situācijas kā akcentēta izruna, fona trokšņa klātbūtne un tehniskā žargona lietošana. Papildus runas pārrakstīšanai tekstā sistēma var arī tulkot runu no patvaļīgas valodas angļu valodā un noteikt runas parādīšanos audio straumē.

Modeļi tiek apmācīti divos veidos: modelis angļu valodai un daudzvalodu modelis, kas atbalsta spāņu, krievu, itāļu, vācu, japāņu, ukraiņu, baltkrievu, ķīniešu un citas valodas. Savukārt katrs skats ir sadalīts 5 opcijās, kas atšķiras pēc izmēra un modelī aptverto parametru skaita.

Whisper arhitektūra ir vienkārša pilnīga pieeja, kas ieviesta kā kodētāja-dekodētāja transformators. Ievades audio tiek sadalīts 30 sekunžu daļās, pārveidots log-Mel spektrogrammā un pēc tam nodots kodētājam. Dekodētājs ir apmācīts paredzēt atbilstošo teksta apakšvirsrakstu, kas ir savienots ar īpašiem marķieriem, kas virza unikālo modeli, lai veiktu tādus uzdevumus kā valodas identifikācija, teikuma līmeņa laikspiedoli, daudzvalodu runas transkripcija un runas tulkošana angļu valodā.

Jo lielāks izmērs, jo augstāka ir atpazīšanas precizitāte un kvalitāte, kā arī augstākas prasības GPU video atmiņas izmēram un zemāka veiktspēja. Piemēram, minimālā opcija ietver 39 miljonus parametru un prasa 1 GB video atmiņu, savukārt maksimālā opcija ietver 1550 miljardus parametru un prasa 10 GB video atmiņu. Minimālais variants ir 32 reizes ātrāks par maksimālo.

Sistēma izmanto “Transformatora” neironu tīkla arhitektūru, kas ietver kodētāju un dekodētāju, kas mijiedarbojas viens ar otru. Audio tiek sadalīts 30 sekunžu gabalos, kas tiek pārveidoti log-Mel spektrogrammā un nosūtīti uz kodētāju.

Kodētāja darba rezultāts tiek nosūtīts uz dekodētāju, kas paredz teksta attēlojumu, kas sajaukts ar īpašiem marķieriem, kas ļauj atrisināt tādus uzdevumus kā valodas noteikšana, teikuma izrunas hronoloģijas uzskaite, runas transkripcija dažādās valodās un tulkojums angļu valodā vispārējā modelī.

Ir vērts pieminēt, ka Whisper veiktspēja ir ļoti atšķirīga atkarībā no valodas, tāpēc labāka izpratne ir angļu valoda, kurai ir četras versijas tikai angļu valodā, kas, tāpat kā citi citu valodu modeļi, piedāvā priekšrocības un trūkumus. ātrumu un precizitāti.

Beidzot Ja jūs interesē uzzināt vairāk par to, Jūs varat pārbaudīt oriģinālo publikāciju šī saite, savukārt, ja jūs interesē pirmkods un apmācītie modeļi, varat ar tiem iepazīties vietnē šo saiti

Atsauces ieviešanas kods, kas balstīts uz PyTorch sistēmu, un jau apmācītu modeļu kopa ir atvērti un gatavi lietošanai. Kods ir atvērts avots saskaņā ar MIT licenci, un ir vērts pieminēt, ka ir jāizmanto ffmpeg bibliotēka.

DesdeLinux

Viņi izlaida automātiskās runas atpazīšanas sistēmas Whisper pirmkodu

Atstājiet savu komentāru Atcelt atbildi