DeepSpeech: Công cụ nhận dạng giọng nói của Mozilla

Hiện tại, Mozilla không chỉ hoạt động trong trình duyệt web phổ biến của mình mà còn có nhiều dự án khác nhau, trong đó Hôm nay chúng ta sẽ nói về DeepSpeech. Đây là một công cụ nhận dạng giọng nói triển khai kiến trúc nhận dạng giọng nói cùng tên do các nhà nghiên cứu Baidu đề xuất.

DeepSpeech nổi bật với việc cung cấp các mô hình được đào tạo khác nhau, các tệp âm thanh mẫu và các công cụ nhận dạng dòng lệnh, để tích hợp chức năng nhận dạng giọng nói vào chương trình của bạn. Cho nó các mô-đun sẵn sàng sử dụng được cung cấp cho Python, NodeJS, C ++ và .NET, mặc dù các nhà phát triển bên ngoài cũng đã chuẩn bị các mô-đun riêng biệt cho Rust và Go.

Mô hình hoàn thiện chỉ được phân phối cho ngôn ngữ tiếng Anh, nhưng đối với các ngôn ngữ khác theo hướng dẫn đính kèm, hệ thống có thể được đào tạo bằng cách sử dụng dữ liệu giọng nói được thu thập bởi dự án Common Voice.

Giới thiệu về DeepSpeech

DeepSpeech đơn giản hơn nhiều so với các hệ thống truyền thống đồng thời cung cấp chất lượng nhận dạng cao hơn khi có tạp âm bên ngoài.

Sự phát triển không sử dụng các mô hình âm học truyền thống và khái niệm âm vị; thay thế, sử dụng một hệ thống học máy Dựa trên mạng nơ-ron được tối ưu hóa tốt, loại bỏ nhu cầu phát triển các thành phần riêng biệt để mô hình hóa các sai lệch khác nhau như tiếng ồn, tiếng vang và đặc điểm giọng nói.

Mặt trái của cách tiếp cận này là để nhận được chất lượng cao và đào tạo mạng nơ-ron, động cơ DeepSpeech yêu cầu một lượng lớn dữ liệu không đồng nhất được ra lệnh trong điều kiện thực bởi các giọng nói khác nhau và khi có tiếng ồn tự nhiên.

Dự án Common Voice được tạo tại Mozilla chịu trách nhiệm thu thập những dữ liệu đó, cung cấp bộ dữ liệu đã được kiểm chứng với 780 giờ tiếng Anh, 325 tiếng Đức, 173 tiếng Pháp và 27 giờ tiếng Nga.

Mục tiêu cuối cùng từ dự án Tiếng nói chung là sự tích lũy của 10 nghìn giờ với các bản ghi âm các cách phát âm khác nhau các cụm từ điển hình trong lời nói của con người, sẽ đạt được mức sai sót nhận dạng có thể chấp nhận được. Theo hình thức hiện tại, những người tham gia dự án đã dạy tổng cộng 4.3 nghìn giờ, trong đó 3.5 nghìn người đã qua bài kiểm tra.

Trong việc giảng dạy mô hình tiếng Anh cuối cùng cho DeepSpeech, 3816 giờ nói đã được sử dụng, ngoại trừ Common Voice bao gồm dữ liệu dự án từ LibriSpeech, Fisher và Switchboard, cũng như bao gồm khoảng 1700 giờ ghi chương trình radio được phiên âm.

Khi sử dụng mô hình sẵn sàng tải xuống bằng tiếng Anh, mức độ lỗi nhận dạng trong DeepSpeech là 7,5% khi được đánh giá bằng bộ thử nghiệm LibriSpeech. Để so sánh, mức độ sai sót trong nhận thức của con người ước tính là 5.83%.

DeepSpeech bao gồm hai hệ thống con: một mô hình âm thanh và một bộ giải mã. Mô hình âm học sử dụng các phương pháp học máy sâu để tính toán xác suất xuất hiện của các ký tự nhất định trong âm thanh đầu vào. Bộ giải mã sử dụng thuật toán tìm kiếm tia để chuyển đổi dữ liệu xác suất ký tự thành biểu diễn văn bản.

Giới thiệu về phiên bản mới của DeepSpeech

DeepSpeech hiện đang ở phiên bản 0.6 trong đó những thay đổi sau được đánh dấu:

Một bộ giải mã truyền dẫn mới được đề xuất cung cấp khả năng đáp ứng cao hơn và không phụ thuộc vào kích thước của dữ liệu âm thanh đã xử lý.
Các thay đổi đã được thực hiện đối với API và công việc đã được thực hiện để thống nhất các tên hàm. Các chức năng đã được thêm vào để có được siêu dữ liệu bổ sung về thời gian, cho phép không chỉ nhận biểu diễn văn bản trong đầu ra mà còn theo dõi sự ràng buộc của các ký tự và câu riêng lẻ với một vị trí trong luồng âm thanh.
Hỗ trợ sử dụng thư viện CuDNN để tối ưu hóa công việc với mạng nơ-ron tuần hoàn (RNN) đã được thêm vào bộ công cụ cho các mô-đun đào tạo.
Các yêu cầu tối thiểu cho phiên bản TensorFlow đã được nâng từ 1.13.1 lên 1.14.0.
Đã thêm hỗ trợ cho TensorFlow Lite Light Edition, giúp giảm kích thước gói DeepSpeech từ 98MB xuống còn 3.7MB.
Mô hình ngôn ngữ đã được chuyển sang một định dạng cấu trúc dữ liệu khác, cho phép các tệp được cấp phát vào bộ nhớ tại thời điểm khởi động.
Hỗ trợ cho định dạng cũ hơn đã bị ngừng.

Việc triển khai được viết bằng Python sử dụng nền tảng máy học TensorFlow và được phân phối theo giấy phép MPL 2.0 miễn phí. Công việc Nó được hỗ trợ trên Linux, Android, macOS và Windows. Có đủ hiệu suất để sử dụng động cơ trên các bo mạch LePotato, Raspberry Pi 3 và Raspberry Pi 4.

Để lại bình luận của bạn Hủy trả lời

địa chỉ email của bạn sẽ không được công bố. Các trường bắt buộc được đánh dấu bằng *

chú thích *

tên*

thư điện tử*

Tôi chấp nhận điều khoản riêng tư*

Chịu trách nhiệm về dữ liệu: Miguel Ángel Gatón
Mục đích của dữ liệu: Kiểm soát SPAM, quản lý bình luận.
Hợp pháp: Sự đồng ý của bạn
Truyền thông dữ liệu: Dữ liệu sẽ không được thông báo cho các bên thứ ba trừ khi có nghĩa vụ pháp lý.
Lưu trữ dữ liệu: Cơ sở dữ liệu do Occentus Networks (EU) lưu trữ
Quyền: Bất cứ lúc nào bạn có thể giới hạn, khôi phục và xóa thông tin của mình.

Tôi muốn nhận bản tin