Izdali so izvorno kodo Whisperja, sistema za samodejno prepoznavanje govora

Šepetanje

Whisper je sistem za samodejno prepoznavanje govora

Projekt pred kratkim OpenAI, ki razvija javne projekte na področju umetne inteligence, je objavil novico v zvezi s sistemom za prepoznavanje glasu šepetati, ki je a avtomatski sistem za prepoznavanje govora (ASR) usposobljeni za 680.000 ur večjezičnih, večopravilnih nadzorovanih podatkov, zbranih s spleta.

Trdi se, da za angleški govor sistem zagotavlja stopnje zanesljivosti in natančnosti samodejnega prepoznavanja, ki so blizu človeškemu prepoznavanju.

Pokažemo, da uporaba tako velikega in raznolikega nabora podatkov vodi do večje odpornosti na poudarke, hrup v ozadju in tehnični jezik. Poleg tega omogoča prepisovanje v različne jezike, pa tudi prevajanje teh jezikov v angleščino. Smo odprtokodni modeli in sklepna koda, ki služita kot osnova za gradnjo uporabnih aplikacij in za prihodnje raziskave robustne obdelave govora.

O modelu (kot že omenjeno) usposobljeni s 680 urami glasovnih podatkov, zbranih iz različnih zbirk, ki pokrivajo različne jezike in tematska področja. Približno 1/3 glasovnih podatkov, vključenih v usposabljanje, je v jezikih, ki niso angleščina.

Predlagani sistem pravilno obravnava situacije, kot je naglašena izgovorjava, prisotnost hrupa v ozadju in uporaba tehničnega žargona. Poleg transkripcije govora v besedilo lahko sistem tudi prevede govor iz poljubnega jezika v angleščino in zazna videz govora v zvočnem toku.

Modeli so usposobljeni v dveh predstavitvah: model za angleški jezik in večjezični model, ki podpira španščino, ruščino, italijanščino, nemščino, japonščino, ukrajinščino, beloruščino, kitajščino in druge jezike. Vsak pogled je razdeljen na 5 možnosti, ki se razlikujejo po velikosti in številu parametrov, zajetih v modelu.

Arhitektura Whisper je preprost pristop od konca do konca, implementiran kot transformator kodirnik-dekoder. Vhodni zvok je razdeljen na 30-sekundne dele, pretvorjen v log-Melov spektrogram in nato posredovan kodirniku. Dekoder je usposobljen za predvidevanje ustreznega besedilnega podnapisa, prepredenega s posebnimi žetoni, ki usmerjajo edinstveni model k izvajanju nalog, kot so identifikacija jezika, časovni žigi na ravni stavka, večjezični prepis govora in prevod govora v angleščino.

Večja kot je velikost, večja je natančnost in kakovost prepoznavanja, višje pa so tudi zahteve glede velikosti video pomnilnika GPU in nižja je zmogljivost. Najmanjša možnost na primer vključuje 39 milijonov parametrov in zahteva 1 GB video pomnilnika, medtem ko največja možnost vključuje 1550 milijarde parametrov in zahteva 10 GB video pomnilnika. Minimalna varianta je 32-krat hitrejša od maksimalne.

Sistem uporablja arhitekturo nevronske mreže "Transformer", ki vključuje kodirnik in dekoder, ki medsebojno delujeta. Zvok je razdeljen na 30-sekundne dele, ki se pretvorijo v log-Melov spektrogram in pošljejo kodirniku.

Rezultat dela kodirnika se pošlje v dekoder, ki predvideva predstavitev besedila, pomešano s posebnimi žetoni, ki omogočajo reševanje nalog, kot so zaznavanje jezika, obračunavanje kronologije izgovarjave stavkov, prepis govora v različnih jezikih in angleški prevod v splošnem modelu.

Omeniti velja, da se zmogljivost Whisperja zelo razlikuje glede na jezik, zato je tista, ki predstavlja boljše razumevanje, angleščina, ki ima štiri različice samo v angleščini, ki tako kot drugi modeli drugih jezikov ponujajo prednosti in slabosti hitrost in natančnost.

Končno Če vas zanima več o tem, izvirno publikacijo lahko preverite v ta povezava, če pa vas zanimajo izvorna koda in usposobljeni modeli, si jih lahko ogledate na to povezavo.

Referenčna implementacijska koda, ki temelji na ogrodju PyTorch in niz že usposobljenih modelov, sta odprta, pripravljena za uporabo. Koda je odprtokodna pod licenco MIT in velja omeniti, da je obvezna uporaba knjižnice ffmpeg.


Bodite prvi komentar

Pustite svoj komentar

Vaš e-naslov ne bo objavljen. Obvezna polja so označena z *

*

*

  1. Za podatke odgovoren: Miguel Ángel Gatón
  2. Namen podatkov: Nadzor neželene pošte, upravljanje komentarjev.
  3. Legitimacija: Vaše soglasje
  4. Sporočanje podatkov: Podatki se ne bodo posredovali tretjim osebam, razen po zakonski obveznosti.
  5. Shranjevanje podatkov: Zbirka podatkov, ki jo gosti Occentus Networks (EU)
  6. Pravice: Kadar koli lahko omejite, obnovite in izbrišete svoje podatke.