Aranjeunna ngaluarkeun kode sumber Whisper, sistem pangakuan ucapan otomatis

harewos

Whisper mangrupikeun sistem pangenal ucapan otomatis

Proyék anyar OpenAI, nu ngembangkeun proyék publik dina widang kecerdasan jieunan, geus diterbitkeun warta patali jeung sistem pangenal sora bisik, anu mangrupa sistem pangenal ucapan otomatis (ASR) dilatih dina 680.000 jam multibasa, multitasking data diawaskeun dikumpulkeun ti web.

Diklaim yén pikeun pidato basa Inggris, sistem éta nyayogikeun tingkat réliabilitas pangakuan otomatis sareng akurasi caket sareng pangakuan manusa.

Kami nunjukkeun yén ngagunakeun set data anu ageung sareng rupa-rupa nyababkeun kakuatan anu langkung ageung kana aksen, sora latar, sareng basa téknis. Salaku tambahan, éta ngamungkinkeun transkripsi dina sababaraha basa, ogé tarjamahan basa-basa éta kana basa Inggris. Kami mangrupikeun modél open source sareng kode inferensi anu janten pondasi pikeun ngawangun aplikasi anu mangpaat sareng pikeun panalungtikan kahareup ngeunaan pamrosésan ucapan anu kuat.

Ngeunaan modél (sakumaha anu parantos disebatkeun) dilatih ngagunakeun 680 jam data sora dikumpulkeun tina rupa-rupa kumpulan anu ngawengku basa jeung wewengkon subjék anu béda. Kira-kira 1/3 tina data sora aub dina latihan aya dina basa lian ti Inggris.

Sistem anu diusulkeun leres nanganan kaayaan sapertos ngucapkeun aksen, ayana noise latar jeung pamakéan jargon teknis. Salian nranskripsikeun ucapan kana téks, sistem ogé bisa narjamahkeun ucapan tina basa arbitrary kana basa Inggris sarta ngadeteksi penampilan ucapan dina aliran audio.

Modél dilatih dina dua répréséntasi: modél pikeun basa Inggris sareng modél multibasa anu ngadukung Spanyol, Rusia, Italia, Jerman, Jepang, Ukrania, Belarusian, Cina, sareng basa sanés. Kahareupna unggal view dibagi kana 5 pilihan, nu béda dina ukuran jeung Jumlah parameter katutupan dina model.

Arsitéktur Whisper mangrupakeun pendekatan tungtung-to-tungtung basajan, dilaksanakeun salaku trafo encoder-decoder. Audio input dibagi jadi sakumpulan 30 detik, dirobih kana spéktrogram log-Mel, teras dialihkeun ka encoder. Dekoder dilatih pikeun ngaduga subjudul téks anu saluyu, diselang ku token khusus anu ngarahkeun modél unik pikeun ngalaksanakeun tugas sapertos idéntifikasi basa, cap waktu tingkat kalimah, transkripsi ucapan multibasa, sareng tarjamahan ucapan kana basa Inggris.

Nu leuwih gede ukuranana, nu leuwih luhur akurasi pangakuan sarta kualitas, tapi ogé nu leuwih luhur sarat pikeun ukuran memori video GPU jeung kinerja handap. Contona, pilihan minimum ngawengku 39 juta parameter jeung merlukeun 1 GB memori video, sedengkeun pilihan maksimum ngawengku 1550 miliar parameter jeung merlukeun 10 GB memori video. Varian minimum nyaéta 32 kali leuwih gancang ti maksimum.

Sistem ieu ngagunakeun arsitektur jaringan saraf "Transformer", nu ngawengku hiji encoder na decoder nu saling berinteraksi. Audio dibagi jadi sakumpulan 30 detik, nu dirobah jadi log-Mel spectrogram sarta dikirim ka encoder nu.

Hasil karya encoder dikirim ka decoder, anu ngaramalkeun répréséntasi téks anu dicampur sareng token khusus anu ngamungkinkeun pikeun ngabéréskeun tugas sapertos deteksi basa, akuntansi kronologi ngucapkeun kalimah, transkripsi ucapan dina basa anu béda sareng tarjamahan basa Inggris dina modél umum.

Perlu disebatkeun yén kinerja Whisper béda-béda pisan gumantung kana basa, janten anu masihan pamahaman anu langkung saé nyaéta Inggris, anu ngagaduhan opat vérsi ngan dina basa Inggris, anu, sapertos modél basa sanés, nawiskeun kaunggulan sareng kalemahan. speed jeung akurasi.

tungtungna Upami anjeun resep terang langkung seueur perkawis éta, anjeun tiasa mariksa publikasi aslina di link ieu, Bari lamun museurkeun kodeu sumber na model dilatih anjeun tiasa konsultasi aranjeunna dina link ieu.

Kode palaksanaan rujukan dumasar kana kerangka PyTorch sareng sakumpulan modél anu parantos dilatih dibuka, siap dianggo. Kodeu open source dina lisénsi MIT sareng kedah disebatkeun yén panggunaan perpustakaan ffmpeg diperyogikeun.


Eusi tulisan taat kana prinsip urang tina étika éditorial. Pikeun ngalaporkeun kasalahan klik di dieu.

Janten kahiji komen

Ninggalkeun koméntar anjeun

email alamat anjeun moal diterbitkeun.

*

*

  1. Jawab data: Miguel Ángel Gatón
  2. Tujuan tina data: Kontrol SPAM, manajemén koméntar.
  3. Legitimasi: idin anjeun
  4. Komunikasi data: Data moal dikomunikasikan ka pihak katilu kacuali ku kawajiban hukum.
  5. Panyimpenan data: Basis data anu diayakeun ku Occentus Networks (EU)
  6. Hak: Iraha waé anjeun tiasa ngawatesan, cageur sareng mupus inpormasi anjeun.