Objavili su izvorni kod Whispera, automatskog sistema za prepoznavanje glasa

Whisper je automatski sistem za prepoznavanje govora

Projekat nedavno OpenAI, koja razvija javne projekte u oblasti veštačke inteligencije, je objavio vijest vezano za sistem za prepoznavanje glasa šaputati, koji je a automatski sistem za prepoznavanje govora (ASR) obučen na 680.000 sati višejezičnih podataka koji su pod nadzorom koji obavljaju više zadataka koji se prikupljaju s weba.

Tvrdi se da za engleski govor sistem pruža nivoe pouzdanosti i tačnosti automatskog prepoznavanja bliske ljudskom prepoznavanju.

Pokazali smo da korištenje tako velikog i raznolikog skupa podataka dovodi do veće otpornosti na akcente, pozadinsku buku i tehnički jezik. Osim toga, omogućava transkripciju na različite jezike, kao i prevođenje tih jezika na engleski. Mi smo open source modeli i kod zaključivanja koji služe kao osnova za izgradnju korisnih aplikacija i za buduća istraživanja robusne obrade govora.

O modelu (kao što je već spomenuto) obučeni koristeći 680 sati glasovnih podataka prikupljenih iz različitih kolekcija koje pokrivaju različite jezike i predmetna područja. Oko 1/3 glasovnih podataka uključenih u obuku je na jezicima koji nisu engleski.

Predloženi sistem ispravno rješava situacije kao što je izgovor s akcentom, prisutnost pozadinske buke i korištenje tehničkog žargona. Pored transkripcije govora u tekst, sistem takođe može prevesti govor sa proizvoljnog jezika na engleski i detektovati pojavu govora u audio streamu.

Modeli se obučavaju u dva prikaza: model za engleski jezik i višejezični model koji podržava španski, ruski, italijanski, njemački, japanski, ukrajinski, bjeloruski, kineski i druge jezike. Zauzvrat, svaki pogled je podijeljen na 5 opcija, koje se razlikuju po veličini i broju parametara obuhvaćenih modelom.

Arhitektura Whisper je jednostavan pristup s kraja na kraj, implementiran kao enkoder-dekoder transformator. Ulazni zvuk se deli na delove od 30 sekundi, pretvara u log-Mel spektrogram, a zatim se prosleđuje u koder. Dekoder je obučen da predvidi odgovarajući tekstualni podnaslov, prošaran posebnim tokenima koji usmjeravaju jedinstveni model na obavljanje zadataka kao što su identifikacija jezika, vremenske oznake na nivou rečenice, višejezična transkripcija govora i prevođenje govora na engleski.

Što je veća veličina, to je veća tačnost i kvalitet prepoznavanja, ali i veći zahtjevi za veličinu GPU video memorije i niže performanse. Na primjer, minimalna opcija uključuje 39 miliona parametara i zahtijeva 1 GB video memorije, dok maksimalna opcija uključuje 1550 milijardi parametara i zahtijeva 10 GB video memorije. Minimalna varijanta je 32 puta brža od maksimalne.

Sistem koristi arhitekturu neuronske mreže "Transformer", koji uključuje enkoder i dekoder koji međusobno djeluju. Zvuk je podijeljen u dijelove od 30 sekundi, koji se pretvaraju u log-Mel spektrogram i šalju u koder.

Rezultat rada enkodera se šalje u dekoder, koji predviđa prikaz teksta pomiješan sa posebnim tokenima koji omogućavaju rješavanje zadataka kao što su otkrivanje jezika, hronološki obračun izgovora rečenica, transkripcija govora na različitim jezicima i engleski prijevod u općem modelu.

Vrijedi napomenuti da performanse Whispera uvelike variraju ovisno o jeziku, pa je bolje razumijevanje engleski, koji ima četiri verzije samo na engleskom, što, kao i ostali modeli drugih jezika, nudi prednosti i nedostatke brzina i tačnost.

Konačno Ako ste zainteresirani da saznate više o tome, originalnu publikaciju možete provjeriti u Ova veza, dok ako vas zanima izvorni kod i obučeni modeli možete ih konsultovati na this link

Referentni implementacioni kod zasnovan na PyTorch okviru i skupu već obučenih modela su otvoreni, spremni za upotrebu. Kôd je otvorenog koda pod MIT licencom i vrijedno je napomenuti da je potrebna upotreba ffmpeg biblioteke.

DesdeLinux

Objavili su izvorni kod Whispera, automatskog sistema za prepoznavanje govora

Ostavite komentar Otkaži odgovor