Mozilla giới thiệu công cụ nhận dạng giọng nói DeepSpeech 0.9

DeepSpeech1

Khởi chạy đã được xuất bản công cụ nhận dạng giọng nói DeepSpeech 0.9 được phát triển bởi Mozilla, triển khai kiến ​​trúc của nhận dạng giọng nói cùng tên do các nhà nghiên cứu Baidu đề xuất.

Việc thực hiện được viết bằng Python sử dụng nền tảng máy học TensorFlow và được phân phối theo giấy phép MPL 2.0 miễn phí.

Giới thiệu về DeepSpeech

DeepSpeech bao gồm hai hệ thống con: một mô hình âm thanh và một bộ giải mã. Mô hình âm học sử dụng các kỹ thuật máy học sâu để tính toán xác suất có một số ký tự nhất định trong âm thanh đầu vào.

Bộ giải mã sử dụng thuật toán tìm kiếm tia để biến đổi dữ liệu xác suất ký tự thành biểu diễn dạng văn bản. DeepSpeech đơn giản hơn nhiều so với các hệ thống truyền thống và đồng thời cung cấp chất lượng nhận dạng cao hơn khi có tạp âm bên ngoài.

Sự phát triển không sử dụng các mô hình âm học truyền thống và khái niệm âm vị; thay vào đó, một hệ thống học máy dựa trên mạng nơ-ron được tối ưu hóa tốt được sử dụng, giúp loại bỏ nhu cầu phát triển các thành phần riêng biệt để mô hình hóa các dị thường khác nhau như tiếng ồn, tiếng vọng và đặc điểm giọng nói.

Bộ dụng cụ cung cấp các mô hình được đào tạo, các tệp âm thanh mẫu và các công cụ nhận dạng dòng lệnh.

Mô hình hoàn chỉnh chỉ được cung cấp cho tiếng Anh và tiếng Trung. Đối với các ngôn ngữ khác, bạn có thể tự học hệ thống theo hướng dẫn đính kèm, sử dụng dữ liệu giọng nói do dự án Common Voice thu thập.

Khi mô hình sẵn sàng sử dụng của ngôn ngữ tiếng Anh được cung cấp để tải xuống được sử dụng, mức độ lỗi nhận dạng trong DeepSpeech là 7.06% khi được đánh giá bằng bộ thử nghiệm LibriSpeech.

Để so sánh, tỷ lệ lỗi nhận dạng của con người được ước tính là 5,83%.

Trong mô hình được đề xuất, kết quả nhận dạng tốt nhất đạt được là bản ghi âm giọng nam với giọng Mỹ rõ ràng trong môi trường không có tạp âm.

Theo tác giả của Thư viện nhận dạng giọng nói liên tục Vosk, nhược điểm của Bộ giọng nói chung là tính đơn chiều của tài liệu nói (nam giới từ 20 đến 30 tuổi chiếm ưu thế và thiếu tài liệu với giọng nói của phụ nữ, trẻ em và người cao tuổi), thiếu sự đa dạng về từ vựng (lặp lại các cụm từ giống nhau) và việc phân phối các bản ghi âm MP3 dễ bị biến dạng.

Nhược điểm của DeepSpeech bao gồm hiệu suất kém và mức tiêu thụ bộ nhớ cao trong bộ giải mã, cũng như các tài nguyên quan trọng để đào tạo mô hình (Mozilla sử dụng hệ thống có 8 GPU Quadro RTX 6000 với 24GB VRAM trong mỗi GPU).

Nhược điểm của phương pháp này là để công nhận chất lượng cao và đào tạo mạng nơ-ron, công cụ DeepSpeech yêu cầu một lượng lớn dữ liệu không đồng nhất được ra lệnh trong điều kiện thực bởi các giọng nói khác nhau và khi có tiếng ồn tự nhiên.

Dữ liệu này được tổng hợp bởi dự án Common Voice được tạo ra tại Mozilla, cung cấp tập dữ liệu đã được xác minh với 1469 giờ tiếng Anh, 692 tiếng Đức, 554 tiếng Pháp, 105 giờ tiếng Nga và 22 giờ tiếng Ukraina.

Khi đào tạo mô hình tiếng Anh cuối cùng cho DeepSpeech, ngoài Common Voice, dữ liệu từ các dự án LibriSpeech, Fisher và Switchboard cũng được sử dụng bổ sung, cũng như khoảng 1700 giờ ghi các chương trình radio đã phiên âm.

Giữa những thay đổi trong nhánh mới, khả năng buộc trọng lượng của các từ được đánh dấu được chọn trong quá trình giải mã.

Hỗ trợ cho nền tảng Electron 9.2 và việc triển khai tùy chọn cơ chế chuẩn hóa lớp (Layer Norm) khi đào tạo mạng thần kinh cũng được đánh dấu.

Tải xuống và nhận

Hiệu suất đủ để sử dụng động cơ trong bo mạch LePotato, Raspberry Pi 3 và Raspberry Pi 4, cũng như trong Google Pixel 2, Sony Xperia Z Premium và điện thoại thông minh Nokia 1.3.

Các mô-đun sẵn sàng được cung cấp sử dụng cho Python, NodeJS, C ++ và .NET để tích hợp các chức năng nhận dạng giọng nói vào chương trình của bạn (các nhà phát triển bên thứ ba đã chuẩn bị riêng các mô-đun cho Rust, Go và V).


Hãy là người đầu tiên nhận xét

Để lại bình luận của bạn

địa chỉ email của bạn sẽ không được công bố. Các trường bắt buộc được đánh dấu bằng *

*

*

  1. Chịu trách nhiệm về dữ liệu: Miguel Ángel Gatón
  2. Mục đích của dữ liệu: Kiểm soát SPAM, quản lý bình luận.
  3. Hợp pháp: Sự đồng ý của bạn
  4. Truyền thông dữ liệu: Dữ liệu sẽ không được thông báo cho các bên thứ ba trừ khi có nghĩa vụ pháp lý.
  5. Lưu trữ dữ liệu: Cơ sở dữ liệu do Occentus Networks (EU) lưu trữ
  6. Quyền: Bất cứ lúc nào bạn có thể giới hạn, khôi phục và xóa thông tin của mình.