Mereka merilis kode sumber Whisper, sistem pengenalan suara otomatis

Berbisik

Whisper adalah sistem pengenalan suara otomatis

Proyek baru-baru ini OpenAI, yang mengembangkan proyek publik di bidang kecerdasan buatan, telah menerbitkan berita terkait dengan sistem pengenalan suara Bisikan, yang mana sistem pengenalan suara otomatis (ASR) dilatih pada 680.000 jam data multibahasa dan multibahasa yang diawasi yang dikumpulkan dari web.

Dikatakan bahwa untuk pidato bahasa Inggris, sistem memberikan tingkat keandalan dan akurasi pengenalan otomatis yang mendekati pengenalan manusia.

Kami menunjukkan bahwa menggunakan kumpulan data yang begitu besar dan beragam menghasilkan ketahanan yang lebih besar pada aksen, kebisingan latar belakang, dan bahasa teknis. Selain itu, memungkinkan transkripsi dalam berbagai bahasa, serta terjemahan bahasa-bahasa tersebut ke dalam bahasa Inggris. Kami adalah model sumber terbuka dan kode inferensi yang berfungsi sebagai dasar untuk membangun aplikasi yang berguna dan untuk penelitian masa depan tentang pemrosesan ucapan yang kuat.

Tentang model (seperti yang telah disebutkan) dilatih menggunakan 680 jam data suara yang dikumpulkan dari berbagai koleksi yang mencakup berbagai bahasa dan bidang studi. Sekitar 1/3 dari data suara yang terlibat dalam pelatihan adalah dalam bahasa selain bahasa Inggris.

Sistem yang diusulkan benar menangani situasi seperti pengucapan beraksen, adanya kebisingan latar belakang dan penggunaan jargon teknis. Selain menyalin ucapan ke dalam teks, sistem juga dapat menerjemahkan ucapan dari bahasa arbitrer ke dalam bahasa Inggris dan mendeteksi kemunculan ucapan di aliran audio.

Model dilatih dalam dua representasi: model untuk bahasa Inggris dan model multibahasa yang mendukung bahasa Spanyol, Rusia, Italia, Jerman, Jepang, Ukraina, Belarusia, Cina, dan bahasa lainnya. Pada gilirannya, setiap tampilan dibagi menjadi 5 opsi, yang berbeda dalam ukuran dan jumlah parameter yang tercakup dalam model.

Arsitektur Whisper adalah pendekatan end-to-end yang sederhana, diimplementasikan sebagai transformator encoder-decoder. Audio input dibagi menjadi potongan 30 detik, diubah menjadi spektogram log-Mel, dan kemudian diteruskan ke encoder. Sebuah decoder dilatih untuk memprediksi teks subtitle yang sesuai, diselingi dengan token khusus yang mengarahkan model unik untuk melakukan tugas-tugas seperti identifikasi bahasa, stempel waktu tingkat kalimat, transkripsi ucapan multibahasa, dan terjemahan ucapan bahasa Inggris.

Semakin besar ukurannya, semakin tinggi akurasi dan kualitas pengenalannya, tetapi juga semakin tinggi persyaratan untuk ukuran memori video GPU dan semakin rendah kinerjanya. Misalnya, opsi minimum mencakup 39 juta parameter dan membutuhkan memori video 1 GB, sedangkan opsi maksimum mencakup 1550 miliar parameter dan membutuhkan memori video 10 GB. Varian minimum adalah 32 kali lebih cepat dari maksimum.

Sistem ini menggunakan arsitektur jaringan saraf “Transformer”, yang mencakup encoder dan decoder yang berinteraksi satu sama lain. Audio dibagi menjadi potongan 30 detik, yang diubah menjadi spektogram log-Mel dan dikirim ke encoder.

Hasil kerja encoder dikirim ke decoder, yang memprediksi representasi teks yang dicampur dengan token khusus yang memungkinkan untuk menyelesaikan tugas-tugas seperti deteksi bahasa, akuntansi kronologi pengucapan kalimat, transkripsi ucapan dalam berbagai bahasa dan terjemahan bahasa Inggris dalam model umum.

Perlu disebutkan bahwa kinerja Whisper sangat bervariasi tergantung pada bahasa, sehingga yang menyajikan pemahaman yang lebih baik adalah bahasa Inggris, yang memiliki empat versi hanya dalam bahasa Inggris, yang, seperti model bahasa lain, menawarkan kelebihan dan kekurangan. kecepatan dan akurasi.

Akhirnya Jika Anda tertarik untuk mengetahui lebih banyak tentang itu, Anda dapat memeriksa publikasi asli di link ini, sedangkan jika Anda tertarik dengan kode sumber dan model terlatih Anda dapat berkonsultasi dengan mereka di tautan ini

Kode implementasi referensi berdasarkan kerangka kerja PyTorch dan serangkaian model yang sudah terlatih terbuka, siap digunakan. Kode ini open source di bawah lisensi MIT dan perlu disebutkan bahwa penggunaan perpustakaan ffmpeg diperlukan.


Isi artikel mengikuti prinsip kami etika editorial. Untuk melaporkan kesalahan, klik di sini.

Jadilah yang pertama mengomentari

tinggalkan Komentar Anda

Alamat email Anda tidak akan dipublikasikan.

*

*

  1. Penanggung jawab data: Miguel Ángel Gatón
  2. Tujuan data: Mengontrol SPAM, manajemen komentar.
  3. Legitimasi: Persetujuan Anda
  4. Komunikasi data: Data tidak akan dikomunikasikan kepada pihak ketiga kecuali dengan kewajiban hukum.
  5. Penyimpanan data: Basis data dihosting oleh Occentus Networks (UE)
  6. Hak: Anda dapat membatasi, memulihkan, dan menghapus informasi Anda kapan saja.