Mereka mengeluarkan kod sumber Whisper, sistem pengecaman suara automatik

Whisper ialah sistem pengecaman pertuturan automatik

Projek baru-baru ini OpenAI, yang membangunkan projek awam dalam bidang kecerdasan buatan, telah menyiarkan berita berkaitan dengan sistem pengecaman suara Whisper, iaitu a sistem pengecaman pertuturan automatik (ASR) dilatih menggunakan 680.000 jam data seliaan berbilang tugas yang dikumpul daripada web.

Didakwa bahawa untuk pertuturan bahasa Inggeris, sistem itu menyediakan tahap kebolehpercayaan dan ketepatan pengecaman automatik hampir dengan pengiktirafan manusia.

Kami menunjukkan bahawa menggunakan set data yang begitu besar dan pelbagai membawa kepada keteguhan yang lebih besar kepada aksen, bunyi latar belakang dan bahasa teknikal. Di samping itu, ia membolehkan transkripsi dalam pelbagai bahasa, serta terjemahan bahasa tersebut ke dalam bahasa Inggeris. Kami adalah model sumber terbuka dan kod inferens yang berfungsi sebagai asas untuk membina aplikasi berguna dan untuk penyelidikan masa depan tentang pemprosesan pertuturan yang mantap.

Mengenai model (seperti yang telah disebutkan) dilatih menggunakan 680 jam data suara yang dikumpul daripada pelbagai koleksi yang meliputi bahasa dan bidang subjek yang berbeza. Kira-kira 1/3 daripada data suara yang terlibat dalam latihan adalah dalam bahasa selain bahasa Inggeris.

Sistem yang dicadangkan mengendalikan situasi dengan betul seperti sebutan beraksen, kehadiran bunyi latar belakang dan penggunaan jargon teknikal. Selain menyalin pertuturan ke dalam teks, sistem ini juga boleh menterjemahkan pertuturan daripada bahasa sewenang-wenang ke dalam bahasa Inggeris dan mengesan penampilan pertuturan dalam aliran audio.

Model dilatih dalam dua perwakilan: model untuk bahasa Inggeris dan model berbilang bahasa yang menyokong bahasa Sepanyol, Rusia, Itali, Jerman, Jepun, Ukraine, Belarusia, Cina dan bahasa lain. Seterusnya, setiap paparan dibahagikan kepada 5 pilihan, yang berbeza dalam saiz dan bilangan parameter yang diliputi dalam model.

Seni bina Whisper ialah pendekatan hujung ke hujung yang mudah, dilaksanakan sebagai pengubah pengekod-penyahkod. Audio input dibahagikan kepada ketulan 30 saat, ditukar kepada spektrogram log-Mel, dan kemudian dihantar kepada pengekod. Penyahkod dilatih untuk meramalkan sari kata teks yang sepadan, diselangi dengan token khas yang mengarahkan model unik untuk melaksanakan tugas seperti pengenalan bahasa, cap masa peringkat ayat, transkripsi pertuturan berbilang bahasa dan terjemahan pertuturan ke dalam bahasa Inggeris.

Semakin besar saiz, semakin tinggi ketepatan dan kualiti pengecaman, tetapi juga semakin tinggi keperluan untuk saiz memori video GPU dan semakin rendah prestasinya. Sebagai contoh, pilihan minimum termasuk 39 juta parameter dan memerlukan 1 GB memori video, manakala pilihan maksimum termasuk 1550 bilion parameter dan memerlukan 10 GB memori video. Varian minimum ialah 32 kali lebih cepat daripada maksimum.

Sistem ini menggunakan seni bina rangkaian saraf "Transformer", yang termasuk pengekod dan penyahkod yang berinteraksi antara satu sama lain. Audio dibahagikan kepada ketulan 30 saat, yang ditukar kepada spektrogram log-Mel dan dihantar kepada pengekod.

Hasil kerja pengekod dihantar ke penyahkod, yang meramalkan perwakilan teks bercampur dengan token khas yang membolehkan menyelesaikan tugas seperti pengesanan bahasa, perakaunan kronologi sebutan ayat, transkripsi pertuturan dalam bahasa berbeza dan terjemahan bahasa Inggeris dalam model umum.

Perlu dinyatakan bahawa prestasi Whisper sangat berbeza-beza bergantung pada bahasa, jadi yang memberikan pemahaman yang lebih baik ialah bahasa Inggeris, yang mempunyai empat versi sahaja dalam bahasa Inggeris, yang, seperti model bahasa lain, menawarkan kelebihan dan kekurangan kelajuan dan ketepatan.

Akhirnya Sekiranya anda berminat untuk mengetahui lebih lanjut mengenainya, anda boleh menyemak penerbitan asal di pautan ini, manakala jika anda berminat dengan kod sumber dan model terlatih anda boleh merujuknya di pautan ini

Kod pelaksanaan rujukan berdasarkan rangka kerja PyTorch dan satu set model yang sudah terlatih terbuka, sedia untuk digunakan. Kod ini adalah sumber terbuka di bawah lesen MIT dan perlu dinyatakan bahawa penggunaan perpustakaan ffmpeg diperlukan.

DesdeLinux

Mereka mengeluarkan kod sumber Whisper, sistem pengecaman pertuturan automatik

Tinggalkan komen anda Batal balasan