Pelancaran telah diterbitkan mesin pengecam suara DeepSpeech 0.9 yang dikembangkan oleh Mozilla, yang menerapkan seni bina pengiktirafan suara dengan nama yang sama yang dicadangkan oleh penyelidik Baidu.
Pelaksanaan ditulis dalam Python menggunakan platform pembelajaran mesin TensorFlow dan diedarkan di bawah lesen MPL 2.0 percuma.
Mengenai DeepSpeech
DeepSpeech terdiri daripada dua subsistem: model akustik dan penyahkod. Model akustik menggunakan teknik pembelajaran mesin mendalam untuk mengira kebarangkalian watak tertentu ada dalam bunyi input.
Penyahkod menggunakan algoritma carian sinar untuk mengubah data kebarangkalian watak menjadi representasi teks. DeepSpeech jauh lebih sederhana daripada sistem tradisional dan pada masa yang sama memberikan kualiti pengiktirafan yang lebih tinggi sekiranya terdapat bunyi asing.
Pembangunannya tidak menggunakan model akustik tradisional dan konsep fonem; sebaliknya, sistem pembelajaran mesin berasaskan rangkaian saraf yang dioptimumkan dengan baik digunakan, yang menghilangkan keperluan untuk mengembangkan komponen yang terpisah untuk memodelkan pelbagai anomali seperti ciri-ciri kebisingan, gema, dan pertuturan.
Kit itu menawarkan model terlatih, contoh fail suara dan alat pengecam baris arahan.
Model siap dibekalkan untuk Bahasa Inggeris dan Cina sahaja. Untuk bahasa lain, anda boleh mempelajari sistem ini sendiri mengikut arahan yang dilampirkan, menggunakan data suara yang dikumpulkan oleh projek Common Voice.
Apabila model siap pakai bahasa Inggeris yang ditawarkan untuk muat turun digunakan, tahap kesalahan pengecaman dalam DeepSpeech adalah 7.06% apabila dinilai menggunakan suite ujian LibriSpeech.
Sebagai perbandingan, kadar kesalahan pengiktirafan manusia dianggarkan sebanyak 5,83%.
Dalam model yang dicadangkan, hasil pengiktirafan terbaik dicapai dengan rakaman suara lelaki yang bersih dengan aksen Amerika di persekitaran tanpa suara yang luar biasa.
Menurut pengarang Perpustakaan Pengenalan Ucapan Berterusan Vosk, kelemahan set Suara Biasa adalah satu sisi bahan ucapan (dominasi lelaki berusia 20 hingga 30 tahun dan kekurangan bahan dengan suara wanita, kanak-kanak dan warga tua), kekurangan kebolehubahan kosa kata (pengulangan frasa yang sama) dan penyebaran rakaman MP3 terdedah kepada penyelewengan.
Kekurangan DeepSpeech merangkumi prestasi yang buruk dan penggunaan memori yang tinggi dalam penyahkod, serta sumber penting untuk melatih model (Mozilla menggunakan sistem dengan 8 Quadro RTX 6000 GPU dengan 24GB VRAM dalam setiap satu).
Kelemahan pendekatan ini ialah untuk pengiktirafan dan latihan rangkaian saraf yang berkualiti tinggi, enjin DeepSpeech memerlukan sejumlah besar data heterogen ditentukan dalam keadaan sebenar oleh suara yang berbeza dan di hadapan suara-suara semula jadi
Data ini dikumpulkan oleh projek Common Voice yang dibuat di Mozilla, yang menyediakan kumpulan data yang disahkan dengan 1469 jam dalam bahasa Inggeris, 692 di Jerman, 554 di Perancis, 105 jam di Rusia dan 22 jam di Ukraine.
Semasa melatih model bahasa Inggeris akhir untuk DeepSpeech, selain Common Voice, data dari projek LibriSpeech, Fisher dan Switchboard juga digunakan, serta sekitar 1700 jam rakaman program radio yang ditranskrip.
Antara perubahan di cabang baru, kemungkinan memaksa bobot perkataan diserlahkan dipilih semasa proses penyahkodan.
Ini juga menyoroti sokongan untuk platform Electron 9.2 dan pelaksanaan opsional mekanisme normalisasi lapisan (Layer Norm) ketika melatih rangkaian saraf.
Muat turun dan dapatkan
Prestasi itu mencukupi untuk menggunakan motor di papan LePotato, Raspberry Pi 3 dan Raspberry Pi 4, serta di telefon pintar Google Pixel 2, Sony Xperia Z Premium dan Nokia 1.3.
Modul siap ditawarkan untuk digunakan untuk Python, NodeJS, C ++, dan .NET untuk mengintegrasikan fungsi pengecaman pertuturan ke dalam program anda (pembangun pihak ketiga telah menyediakan modul untuk Rust, Go, dan V secara berasingan).