Liberaron el código fuente de Whisper, un sistema de reconocimiento automático de voz

Ang Whisper ay isang awtomatikong speech recognition system

Ang proyekto kamakailan OpenAI, na bumubuo ng mga pampublikong proyekto sa larangan ng artificial intelligence, ay naglathala ng balita nauugnay sa voice recognition system Bulong, na a awtomatikong speech recognition system (ASR) sinanay sa 680.000 oras ng multilingual, multitasking na pinangangasiwaang data na nakolekta mula sa web.

Sinasabing para sa pagsasalita sa Ingles, ang sistema ay nagbibigay ng mga antas ng pagiging maaasahan at katumpakan ng awtomatikong pagkilala na malapit sa pagkilala ng tao.

Ipinakikita namin na ang paggamit ng ganoon kalaki at magkakaibang dataset ay humahantong sa higit na tibay sa mga accent, ingay sa background, at teknikal na wika. Bilang karagdagan, pinapayagan nito ang transkripsyon sa iba't ibang mga wika, pati na rin ang pagsasalin ng mga wikang iyon sa Ingles. Kami ay mga open source na modelo at inference code na nagsisilbing pundasyon para sa pagbuo ng mga kapaki-pakinabang na aplikasyon at para sa hinaharap na pananaliksik sa matatag na pagproseso ng pagsasalita.

Tungkol sa modelo (tulad ng nabanggit na) sinanay gamit ang 680 oras ng data ng boses na nakolekta mula sa iba't ibang mga koleksyon na sumasaklaw sa iba't ibang mga wika at paksa. Humigit-kumulang 1/3 ng data ng boses na kasangkot sa pagsasanay ay nasa mga wika maliban sa Ingles.

Ang iminungkahing sistema wastong pinangangasiwaan ang mga sitwasyon tulad ng impit na pagbigkas, ang pagkakaroon ng ingay sa background at ang paggamit ng teknikal na jargon. Bilang karagdagan sa pag-transcribe ng pagsasalita sa teksto, maaari ding isalin ng system ang pagsasalita mula sa isang arbitrary na wika sa Ingles at makita ang hitsura ng pagsasalita sa audio stream.

Ang mga modelo ay sinanay sa dalawang representasyon: isang modelo para sa wikang Ingles at isang multilinggwal na modelo na sumusuporta sa Spanish, Russian, Italian, German, Japanese, Ukrainian, Belarusian, Chinese, at iba pang mga wika. Sa turn, ang bawat view ay nahahati sa 5 mga opsyon, na naiiba sa laki at bilang ng mga parameter na sakop sa modelo.

Ang arkitektura ng Whisper ay isang simpleng end-to-end na diskarte, na ipinatupad bilang isang encoder-decoder transformer. Ang input audio ay nahahati sa 30 segundong mga chunks, na-convert sa isang log-Mel spectrogram, at pagkatapos ay ipinasa sa isang encoder. Ang isang decoder ay sinanay upang hulaan ang kaukulang subtitle ng teksto, na may kasamang mga espesyal na token na nagdidirekta sa natatanging modelo upang magsagawa ng mga gawain tulad ng pagkilala sa wika, mga timestamp sa antas ng pangungusap, transkripsyon ng pananalita sa multilinggwal, at pagsasalin ng pagsasalita sa Ingles.

Kung mas malaki ang laki, mas mataas ang katumpakan at kalidad ng pagkilala, ngunit mas mataas din ang mga kinakailangan para sa laki ng memorya ng video ng GPU at mas mababa ang pagganap. Halimbawa, ang pinakamababang opsyon ay may kasamang 39 milyong mga parameter at nangangailangan ng 1 GB ng memorya ng video, habang ang pinakamataas na opsyon ay may kasamang 1550 bilyong mga parameter at nangangailangan ng 10 GB ng memorya ng video. Ang minimum na variant ay 32 beses na mas mabilis kaysa sa maximum.

Ginagamit ng system ang arkitektura ng neural network na "Transformer", na kinabibilangan ng isang encoder at isang decoder na nakikipag-ugnayan sa isa't isa. Ang audio ay nahahati sa 30 segundong mga chunks, na na-convert sa isang log-Mel spectrogram at ipinadala sa encoder.

Ang resulta ng trabaho ng encoder ay ipinadala sa decoder, na hinuhulaan ang isang representasyon ng teksto na hinaluan ng mga espesyal na token na nagbibigay-daan upang malutas ang mga gawain tulad ng pagtuklas ng wika, accounting ng kronolohiya ng pagbigkas ng pangungusap, transkripsyon ng pagsasalita sa iba't ibang wika at pagsasalin sa Ingles sa isang pangkalahatang modelo.

Ito ay nagkakahalaga ng pagbanggit na ang pagganap ng Whisper ay nag-iiba-iba depende sa wika, kaya ang isa na nagpapakita ng mas mahusay na pag-unawa ay ang Ingles, na may apat na bersyon lamang sa Ingles, na, tulad ng iba pang mga modelo ng iba pang mga wika, ay nag-aalok ng mga pakinabang at disadvantages ng bilis at katumpakan.

Sa wakas Kung interesado kang malaman ang tungkol dito, maaari mong suriin ang orihinal na publication sa ang link na ito, habang kung interesado ka sa source code at sa mga sinanay na modelo maaari kang sumangguni sa kanila sa ang link na ito.

Ang code ng pagpapatupad ng sanggunian batay sa balangkas ng PyTorch at isang hanay ng mga sinanay na modelo ay bukas, handa nang gamitin. Ang code ay open source sa ilalim ng lisensya ng MIT at ito ay nagkakahalaga ng pagbanggit na ang paggamit ng ffmpeg library ay kinakailangan.

DesdeLinux

Inilabas nila ang source code ng Whisper, isang awtomatikong speech recognition system

Iwanan ang iyong puna Ikansela ang tugon