Mozilla Memperkenalkan Mesin Pengenalan Ucapan DeepSpeech 0.9

Pidato Dalam1

Peluncuran telah diterbitkan mesin pengenalan suara DeepSpeech 0.9 dikembangkan oleh Mozilla, yang mengimplementasikan arsitektur pengenalan suara dari nama yang sama yang diusulkan oleh peneliti Baidu.

Pelaksanaan ditulis dengan Python menggunakan platform pembelajaran mesin TensorFlow dan didistribusikan di bawah lisensi MPL 2.0 gratis.

Tentang DeepSpeech

DeepSpeech terdiri dari dua subsistem: model akustik dan decoder. Model akustik menggunakan teknik deep machine learning untuk menghitung probabilitas bahwa karakter tertentu hadir dalam suara masukan.

Dekoder menggunakan algoritma pencarian sinar untuk mengubah data probabilitas karakter menjadi representasi tekstual. DeepSpeech jauh lebih sederhana daripada sistem tradisional dan pada saat yang sama memberikan kualitas pengenalan yang lebih tinggi dengan adanya kebisingan asing.

Pengembangannya tidak menggunakan model akustik tradisional dan konsep fonem; sebaliknya, sistem pembelajaran mesin berbasis jaringan neural yang dioptimalkan dengan baik digunakan, yang menghilangkan kebutuhan untuk mengembangkan komponen terpisah untuk memodelkan berbagai anomali seperti kebisingan, gema, dan karakteristik ucapan.

Kit menawarkan model terlatih, file suara sampel dan alat pengenalan baris perintah.

Model jadi hanya tersedia untuk bahasa Inggris dan Cina. Untuk bahasa lain, Anda dapat mempelajari sendiri sistemnya sesuai dengan instruksi yang terlampir, menggunakan data suara yang dikumpulkan oleh proyek Common Voice.

Ketika model bahasa Inggris siap pakai yang ditawarkan untuk diunduh digunakan, tingkat kesalahan pengenalan di DeepSpeech adalah 7.06% saat dievaluasi menggunakan rangkaian pengujian LibriSpeech.

Sebagai perbandingan, tingkat kesalahan pengenalan manusia diperkirakan mencapai 5,83%.

Dalam model yang diusulkan, hasil pengenalan terbaik dicapai dengan rekaman suara pria yang bersih dengan aksen Amerika di lingkungan tanpa suara asing.

Menurut penulis Vosk Continuous Speech Recognition Library, kelemahan dari kumpulan Common Voice adalah materi pidato yang sepihak (dominasi pria berusia 20 hingga 30 tahun dan kurangnya materi dengan suara wanita, anak-anak dan lansia), kurangnya variabilitas kosakata (pengulangan frasa yang sama) dan distribusi rekaman MP3 yang rentan terhadap distorsi.

Kekurangan DeepSpeech termasuk kinerja yang buruk dan konsumsi memori yang tinggi di dekoder, serta sumber daya penting untuk melatih model (Mozilla menggunakan sistem dengan 8 GPU Quadro RTX 6000 dengan VRAM 24 GB di masing-masingnya).

Sisi negatif dari pendekatan ini adalah itu untuk pengenalan dan pelatihan jaringan neural berkualitas tinggi, mesin DeepSpeech membutuhkan data dalam jumlah besar heterogen yang ditentukan dalam kondisi nyata oleh suara yang berbeda dan dengan adanya suara alam.

Data ini dikumpulkan oleh proyek Common Voice yang dibuat di Mozilla, yang menyediakan kumpulan data terverifikasi dengan 1469 jam dalam bahasa Inggris, 692 jam dalam bahasa Jerman, 554 jam dalam bahasa Prancis, 105 jam dalam bahasa Rusia, dan 22 jam dalam bahasa Ukraina.

Saat melatih model bahasa Inggris akhir untuk DeepSpeech, selain Common Voice, data dari proyek LibriSpeech, Fisher, dan Switchboard juga digunakan, serta sekitar 1700 jam rekaman program radio yang ditranskrip.

Di antara perubahan di cabang baru, kemungkinan memaksa bobot kata-kata disorot dipilih selama proses decoding.

Ini juga menyoroti dukungan untuk platform Electron 9.2 dan implementasi opsional dari mekanisme normalisasi lapisan (Norma Lapisan) saat melatih jaringan saraf.

Unduh dan dapatkan

Performanya cukup untuk menggunakan motor di papan LePotato, Raspberry Pi 3 dan Raspberry Pi 4, serta di smartphone Google Pixel 2, Sony Xperia Z Premium, dan Nokia 1.3.

Modul siap ditawarkan yang digunakan untuk Python, NodeJS, C ++, dan .NET guna mengintegrasikan fungsi pengenalan ucapan ke dalam program Anda (pengembang pihak ketiga telah menyiapkan modul secara terpisah untuk Rust, Go, dan V).


tinggalkan Komentar Anda

Alamat email Anda tidak akan dipublikasikan. Bidang yang harus diisi ditandai dengan *

*

*

  1. Penanggung jawab data: Miguel Ángel Gatón
  2. Tujuan data: Mengontrol SPAM, manajemen komentar.
  3. Legitimasi: Persetujuan Anda
  4. Komunikasi data: Data tidak akan dikomunikasikan kepada pihak ketiga kecuali dengan kewajiban hukum.
  5. Penyimpanan data: Basis data dihosting oleh Occentus Networks (UE)
  6. Hak: Anda dapat membatasi, memulihkan, dan menghapus informasi Anda kapan saja.