Objavili su izvorni kod Whispera, sustava za automatsko prepoznavanje glasa

Whisper je sustav za automatsko prepoznavanje govora

Projekt nedavno OpenAI, koja razvija javne projekte iz područja umjetne inteligencije, je objavio vijest vezano uz sustav za prepoznavanje glasa šapat, koji je a sustav za automatsko prepoznavanje govora (ASR) obučen na 680.000 XNUMX sati višejezičnih, višezadaćnih nadziranih podataka prikupljenih s weba.

Tvrdi se da za engleski govor sustav pruža razine pouzdanosti i točnosti automatskog prepoznavanja bliske ljudskom prepoznavanju.

Pokazujemo da korištenje tako velikog i raznolikog skupa podataka dovodi do veće otpornosti na naglaske, pozadinsku buku i tehnički jezik. Osim toga, omogućuje transkripciju na različite jezike, kao i prijevod tih jezika na engleski. Mi smo modeli otvorenog koda i inferencijski kod koji služi kao temelj za izgradnju korisnih aplikacija i za buduća istraživanja robusne obrade govora.

O modelu (kao što je već spomenuto) trenirao koristeći 680 sati glasovnih podataka prikupljenih iz raznih zbirki koje pokrivaju različite jezike i tematska područja. Oko 1/3 glasovnih podataka uključenih u obuku je na jezicima koji nisu engleski.

Predloženi sustav ispravno rješava situacije kao što je izgovor s naglaskom, prisutnost pozadinske buke i korištenje tehničkog žargona. Osim transkripcije govora u tekst, sustav također može prevoditi govor s proizvoljnog jezika na engleski i detektirati pojavu govora u audio streamu.

Modeli su obučeni u dvije reprezentacije: model za engleski jezik i višejezični model koji podržava španjolski, ruski, talijanski, njemački, japanski, ukrajinski, bjeloruski, kineski i druge jezike. Zauzvrat, svaki pogled je podijeljen u 5 opcija, koje se razlikuju po veličini i broju parametara obuhvaćenih modelom.

Arhitektura Whisper jednostavan je pristup od kraja do kraja, implementiran kao transformator koder-dekoder. Ulazni zvuk se dijeli na dijelove od 30 sekundi, pretvara u log-Mel spektrogram, a zatim prosljeđuje koderu. Dekoder je osposobljen za predviđanje odgovarajućeg tekstualnog titla, prošaranog posebnim tokenima koji usmjeravaju jedinstveni model za obavljanje zadataka kao što su identifikacija jezika, vremenske oznake na razini rečenice, višejezična transkripcija govora i prijevod govora na engleski.

Što je veća veličina, veća je točnost i kvaliteta prepoznavanja, ali i veći su zahtjevi za veličinom video memorije GPU-a i niža je izvedba. Na primjer, minimalna opcija uključuje 39 milijuna parametara i zahtijeva 1 GB video memorije, dok maksimalna opcija uključuje 1550 milijardi parametara i zahtijeva 10 GB video memorije. Minimalna varijanta je 32 puta brža od maksimalne.

Sustav koristi arhitekturu neuronske mreže "Transformer", koji uključuje koder i dekoder koji međusobno djeluju. Zvuk se dijeli na dijelove od 30 sekundi, koji se pretvaraju u log-Mel spektrogram i šalju koderu.

Rezultat rada kodera šalje se dekoderu, koji predviđa prikaz teksta pomiješan s posebnim tokenima koji omogućuju rješavanje zadataka kao što su otkrivanje jezika, kronološko obračunavanje izgovora rečenica, transkripcija govora na različitim jezicima i engleski prijevod u općem modelu.

Vrijedi spomenuti da performanse Whispera jako variraju ovisno o jeziku, pa onaj koji predstavlja bolje razumijevanje je engleski, koji ima četiri verzije samo na engleskom, koje, kao i ostali modeli drugih jezika, nude prednosti i nedostatke brzina i točnost.

Konačno Ako vas zanima više o tome, izvornu publikaciju možete provjeriti u ovaj link, a ako ste zainteresirani za izvorni kod i obučene modele, možete ih konzultirati na ovu vezu

Referentni implementacijski kod temeljen na okviru PyTorch i skup već uvježbanih modela otvoreni su, spremni za korištenje. Kod je otvorenog koda pod MIT licencom i vrijedi spomenuti da je potrebno korištenje ffmpeg biblioteke.

DesdeLinux

Objavili su izvorni kod Whispera, sustava za automatsko prepoznavanje govora

Ostavite svoj komentar Otkaži odgovor