Dheweke ngeculake kode sumber Whisper, sistem pangenalan wicara otomatis

Whisper

Whisper minangka sistem pangenalan wicara otomatis

Proyek bubar OpenAI, sing ngembangake proyek umum ing bidang intelijen buatan, wis nerbitake warta gegandhengan karo sistem pangenalan swara bisik-bisik, yaiku a sistem pangenalan ucapan otomatis (ASR) dilatih ing 680.000 jam multibasa, multitasking data pengawasan diklumpukake saka web.

Diklaim manawa kanggo pidato Inggris, sistem kasebut nyedhiyakake tingkat linuwih lan akurasi pangenalan otomatis sing cedhak karo pangenalan manungsa.

Kita nuduhake yen nggunakake set data sing gedhe lan macem-macem ndadékaké kakuwatan aksen, swara latar mburi, lan basa teknis. Kajaba iku, ngidini transkripsi ing macem-macem basa, uga terjemahan basa kasebut menyang Inggris. Kita minangka model open source lan kode inferensi sing dadi dhasar kanggo mbangun aplikasi sing migunani lan kanggo riset ing mangsa ngarep babagan pangolahan wicara sing kuat.

Babagan model (kaya sing wis kasebut) dilatih nggunakake 680 jam data swara sing diklumpukake saka macem-macem koleksi sing kalebu macem-macem basa lan wilayah subyek. Udakara 1/3 data swara sing melu latihan ana ing basa liyane saka Inggris.

Sistem sing diusulake nangani kahanan kanthi bener kayata lafal aksen, anane gangguan latar lan nggunakake jargon teknis. Saliyane nerjemahake wicara menyang teks, sistem uga bisa nerjemahake wicara saka basa arbitrer menyang Inggris lan ndeteksi tampilan wicara ing stream audio.

Model dilatih ing rong perwakilan: model kanggo basa Inggris lan model multibasa sing ndhukung basa Spanyol, Rusia, Italia, Jerman, Jepang, Ukrainia, Belarusia, Cina, lan basa liyane. Sabanjure, saben tampilan dipérang dadi 5 opsi, sing beda karo ukuran lan jumlah paramèter sing ana ing model kasebut.

Arsitektur Whisper minangka pendekatan end-to-end sing prasaja, diimplementasikake minangka trafo encoder-decoder. Audio input dipérang dadi potongan 30 detik, diowahi dadi spektrogram log-Mel, banjur diterusake menyang encoder. Dekoder dilatih kanggo prédhiksi subtitle teks sing cocog, diselingi karo token khusus sing ngarahake model unik kanggo nindakake tugas kayata identifikasi basa, cap wektu tingkat ukara, transkripsi wicara multibasa, lan terjemahan wicara menyang basa Inggris.

Ukuran sing luwih gedhe, akurasi lan kualitas pangenalan sing luwih dhuwur, nanging uga syarat sing luwih dhuwur kanggo ukuran memori video GPU lan kinerja sing luwih murah. Contone, pilihan minimal kalebu 39 yuta paramèter lan mbutuhake 1 GB memori video, nalika pilihan maksimum kalebu 1550 milyar paramèter lan mbutuhake 10 GB memori video. Varian minimal 32 kaping luwih cepet tinimbang maksimum.

Sistem kasebut nggunakake arsitektur jaringan saraf "Transformer", kang kalebu encoder lan decoder sing sesambungan karo saben liyane. Audio dipérang dadi potongan 30 detik, sing diowahi dadi spektrogram log-Mel lan dikirim menyang encoder.

Asil saka karya encoder dikirim menyang decoder, sing prédhiksi perwakilan teks sing dicampur karo token khusus sing ngidini kanggo ngatasi tugas kayata deteksi basa, akuntansi kronologi pengucapan ukara, transkripsi wicara ing basa sing beda-beda lan terjemahan Inggris ing model umum.

Perlu dicathet menawa kinerja Whisper beda-beda gumantung banget karo basa, mula sing menehi pangerten sing luwih apik yaiku Inggris, sing mung duwe papat versi ing basa Inggris, sing, kaya model basa liyane, menehi kaluwihan lan kekurangan. kacepetan lan akurasi.

Pungkasan Yen sampeyan kepengin ngerti babagan iki, sampeyan bisa mriksa publikasi asli ing Link iki, nalika yen sampeyan kasengsem ing kode sumber lan model dilatih sampeyan bisa takon ing link iki

Kode implementasi referensi adhedhasar kerangka PyTorch lan sakumpulan model sing wis dilatih mbukak, siap digunakake. Kode kasebut minangka sumber terbuka ing sangisore lisensi MIT lan kudu dingerteni manawa panggunaan perpustakaan ffmpeg dibutuhake.


Konten artikel kasebut sesuai karo prinsip kita yaiku etika editorial. Kanggo nglaporake klik kesalahan Kene.

Dadi pisanan komentar

Ninggalake komentar sampeyan

Panjenengan alamat email ora bisa diterbitake.

*

*

  1. Tanggung jawab data: Miguel Ángel Gatón
  2. Tujuan data: Kontrol SPAM, manajemen komentar.
  3. Legitimasi: idin sampeyan
  4. Komunikasi data: Data kasebut ora bakal dikomunikasikake karo pihak katelu kajaba kanthi kewajiban ukum.
  5. Panyimpenan data: Database sing dianakake dening Occentus Networks (EU)
  6. Hak: Kapan wae sampeyan bisa matesi, mulihake lan mbusak informasi sampeyan.