Jie išleido automatinės balso atpažinimo sistemos Whisper šaltinio kodą

Whisper yra automatinė kalbos atpažinimo sistema

Projektas neseniai OpenAI, kuri plėtoja viešuosius projektus dirbtinio intelekto srityje, paskelbė naujienas susijusi su balso atpažinimo sistema šnabždėti, kuri yra a automatinė kalbos atpažinimo sistema (ASR) apmokytas 680.000 XNUMX valandų daugiakalbių, kelių užduočių atliekamų prižiūrimų duomenų, surinktų iš žiniatinklio.

Teigiama, kad kalbant angliškai, sistema užtikrina automatinio atpažinimo patikimumo ir tikslumo lygius, artimus žmogaus atpažinimui.

Parodome, kad naudojant tokį didelį ir įvairų duomenų rinkinį, akcentai, foninis triukšmas ir techninė kalba tampa tvirtesni. Be to, tai leidžia transkribuoti įvairiomis kalbomis, taip pat išversti tas kalbas į anglų kalbą. Esame atvirojo kodo modeliai ir išvadų kodas, kurie yra naudingų programų kūrimo ir būsimų tvirto kalbos apdorojimo tyrimų pagrindas.

Apie modelį (kaip jau minėta) treniruojamas naudojant 680 000 valandų balso duomenų, surinktų iš įvairių kolekcijų, apimančių skirtingas kalbas ir temas. Maždaug 1/3 balso duomenų, susijusių su mokymu, yra ne anglų kalba.

Siūloma sistema teisingai sprendžia tokias situacijas kaip kirčiuotas tarimas, foninio triukšmo buvimas ir techninio žargono vartojimas. Be kalbos perrašymo į tekstą, sistema taip pat gali išversti kalbą iš savavališkos kalbos į anglų kalbą ir aptikti kalbos atsiradimą garso sraute.

Modeliai mokomi dviem būdais: modelis anglų kalba ir daugiakalbis modelis, palaikantis ispanų, rusų, italų, vokiečių, japonų, ukrainiečių, baltarusių, kinų ir kitas kalbas. Savo ruožtu kiekvienas vaizdas yra padalintas į 5 parinktis, kurios skiriasi dydžiu ir modelio parametrų skaičiumi.

„Whisper“ architektūra yra paprastas „nuo galo iki galo“ metodas, įgyvendinamas kaip kodavimo-dekoderio transformatorius. Įvesties garsas suskaidomas į 30 sekundžių dalis, konvertuojamas į log-Mel spektrogramą ir perduodamas kodavimo įrenginiui. Dekoderis yra išmokytas nuspėti atitinkamą teksto subtitrą, įterptą į specialius žetonus, kurie nukreipia unikalų modelį atlikti tokias užduotis kaip kalbos identifikavimas, sakinio lygio laiko žymos, daugiakalbė kalbos transkripcija ir kalbos vertimas į anglų kalbą.

Kuo didesnis dydis, tuo didesnis atpažinimo tikslumas ir kokybė, bet tuo aukštesni GPU vaizdo atminties dydžio reikalavimai ir mažesnis našumas. Pavyzdžiui, minimali parinktis apima 39 milijonus parametrų ir reikalauja 1 GB vaizdo atminties, o maksimali parinktis apima 1550 milijardo parametrų ir reikalauja 10 GB vaizdo atminties. Minimalus variantas yra 32 kartus greitesnis už didžiausią.

Sistema naudoja „Transformatoriaus“ neuroninio tinklo architektūrą, kurį sudaro vienas su kitu sąveikaujantys koduotuvas ir dekoderis. Garsas yra padalintas į 30 sekundžių dalis, kurios konvertuojamos į log-Mel spektrogramą ir siunčiamos į kodavimo įrenginį.

Kodavimo įrenginio darbo rezultatas siunčiamas į dekoderį, kuris numato teksto atvaizdavimą, sumaišytą su specialiais žetonais, leidžiančiais išspręsti tokias užduotis kaip kalbos aptikimas, sakinio tarimo chronologijos apskaita, kalbos transkripcija įvairiomis kalbomis ir vertimas į anglų kalbą pagal bendrą modelį.

Verta paminėti, kad Whisper našumas labai skiriasi priklausomai nuo kalbos, todėl geriau suprantama anglų kalba, kuri turi keturias versijas tik anglų kalba, kuri, kaip ir kiti kitų kalbų modeliai, turi privalumų ir trūkumų. greitis ir tikslumas.

Pagaliau Jei norite sužinoti daugiau apie tai, galite patikrinti originalų leidinį šią nuorodą, o jei jus domina šaltinio kodas ir išmokyti modeliai, galite pasikonsultuoti su jais adresu šią nuorodą.

Nuorodinis diegimo kodas, pagrįstas „PyTorch“ sistema, ir jau parengtų modelių rinkinys yra atidarytas, paruoštas naudoti. Kodas yra atvirojo kodo pagal MIT licenciją ir verta paminėti, kad būtina naudoti ffmpeg biblioteką.

DesdeLinux

Jie išleido automatinės kalbos atpažinimo sistemos Whisper šaltinio kodą

Palikite komentarą Atšaukti atsakymą