Họ đã phát hành mã nguồn của Whisper, một hệ thống nhận dạng giọng nói tự động

Thì thầm

Whisper là một hệ thống nhận dạng giọng nói tự động

Dự án gần đây OpenAI, nơi phát triển các dự án công trong lĩnh vực trí tuệ nhân tạo, đã xuất bản tin tức liên quan đến hệ thống nhận dạng giọng nói Thì thầm, mà là một hệ thống nhận dạng giọng nói tự động (ASR) được đào tạo trên 680.000 giờ dữ liệu được giám sát đa ngôn ngữ, đa nhiệm được thu thập từ web.

Người ta khẳng định rằng đối với giọng nói tiếng Anh, hệ thống cung cấp mức độ tin cậy và độ chính xác nhận dạng tự động gần với khả năng nhận dạng của con người.

Chúng tôi cho thấy rằng việc sử dụng một tập dữ liệu lớn và đa dạng như vậy sẽ dẫn đến sự mạnh mẽ hơn đối với các trọng âm, tiếng ồn xung quanh và ngôn ngữ kỹ thuật. Ngoài ra, nó cho phép phiên âm bằng nhiều ngôn ngữ khác nhau, cũng như dịch các ngôn ngữ đó sang tiếng Anh. Chúng tôi là các mô hình mã nguồn mở và mã suy luận đóng vai trò là nền tảng để xây dựng các ứng dụng hữu ích và cho các nghiên cứu trong tương lai về xử lý giọng nói mạnh mẽ.

Về mô hình (như đã đề cập) được đào tạo sử dụng 680 giờ dữ liệu giọng nói được thu thập từ các bộ sưu tập khác nhau bao gồm các ngôn ngữ và lĩnh vực chủ đề khác nhau. Khoảng 1/3 dữ liệu giọng nói liên quan đến đào tạo là các ngôn ngữ khác ngoài tiếng Anh.

Hệ thống đề xuất xử lý chính xác các tình huống như phát âm có trọng âm, sự hiện diện của tiếng ồn xung quanh và việc sử dụng biệt ngữ kỹ thuật. Ngoài việc chuyển lời nói thành văn bản, hệ thống cũng có thể dịch lời nói từ một ngôn ngữ tùy ý sang tiếng Anh và phát hiện sự xuất hiện của giọng nói trong luồng âm thanh.

Các mô hình được đào tạo theo hai cách đại diện: một mô hình cho ngôn ngữ tiếng Anh và một mô hình đa ngôn ngữ hỗ trợ tiếng Tây Ban Nha, Nga, Ý, Đức, Nhật Bản, Ukraina, Belarus, Trung Quốc và các ngôn ngữ khác. Lần lượt, mỗi khung nhìn được chia thành 5 tùy chọn, khác nhau về kích thước và số lượng các thông số được bao gồm trong mô hình.

Kiến trúc Whisper là một cách tiếp cận end-to-end đơn giản, được thực hiện như một máy biến áp bộ mã hóa-giải mã. Âm thanh đầu vào được chia thành các đoạn dài 30 giây, được chuyển đổi thành biểu đồ quang phổ log-Mel, và sau đó được chuyển đến bộ mã hóa. Một bộ giải mã được đào tạo để dự đoán phụ đề văn bản tương ứng, xen kẽ với các mã thông báo đặc biệt hướng mô hình duy nhất thực hiện các tác vụ như nhận dạng ngôn ngữ, dấu thời gian cấp câu, phiên âm giọng nói đa ngôn ngữ và dịch giọng nói sang tiếng Anh.

Kích thước càng lớn, độ chính xác và chất lượng nhận dạng càng cao, nhưng cũng có yêu cầu cao hơn đối với kích thước bộ nhớ video GPU và hiệu suất càng thấp. Ví dụ: tùy chọn tối thiểu bao gồm 39 triệu thông số và yêu cầu 1 GB bộ nhớ video, trong khi tùy chọn tối đa bao gồm 1550 tỷ thông số và yêu cầu 10 GB bộ nhớ video. Biến thể tối thiểu nhanh hơn 32 lần so với biến thể tối đa.

Hệ thống sử dụng kiến ​​trúc mạng thần kinh "Transformer", trong đó bao gồm một bộ mã hóa và một bộ giải mã tương tác với nhau. Âm thanh được chia thành các đoạn dài 30 giây, được chuyển đổi thành biểu đồ quang phổ log-Mel và được gửi đến bộ mã hóa.

Kết quả của công việc của bộ mã hóa được gửi đến bộ giải mã, dự đoán một biểu diễn văn bản kết hợp với các mã thông báo đặc biệt cho phép giải quyết các tác vụ như phát hiện ngôn ngữ, tính toán trình tự thời gian phát âm câu, phiên âm giọng nói bằng các ngôn ngữ khác nhau và bản dịch tiếng Anh theo mô hình chung.

Điều đáng nói là hiệu suất của Whisper thay đổi rất nhiều tùy thuộc vào ngôn ngữ, do đó, một trong những trình bày dễ hiểu hơn là tiếng Anh, chỉ có bốn phiên bản bằng tiếng Anh, giống như các mô hình khác của các ngôn ngữ khác, đưa ra những ưu điểm và nhược điểm. tốc độ và độ chính xác.

Cuối cùng Nếu bạn muốn biết thêm về nó, bạn có thể kiểm tra xuất bản gốc trong liên kết này, trong khi nếu bạn quan tâm đến mã nguồn và các mô hình được đào tạo, bạn có thể tham khảo chúng tại liên kết này.

Mã triển khai tham chiếu dựa trên khung PyTorch và một tập hợp các mô hình đã được đào tạo sẵn sàng để sử dụng. Mã nguồn mở theo giấy phép MIT và điều đáng nói là phải sử dụng thư viện ffmpeg.


Để lại bình luận của bạn

địa chỉ email của bạn sẽ không được công bố. Các trường bắt buộc được đánh dấu bằng *

*

*

  1. Chịu trách nhiệm về dữ liệu: Miguel Ángel Gatón
  2. Mục đích của dữ liệu: Kiểm soát SPAM, quản lý bình luận.
  3. Hợp pháp: Sự đồng ý của bạn
  4. Truyền thông dữ liệu: Dữ liệu sẽ không được thông báo cho các bên thứ ba trừ khi có nghĩa vụ pháp lý.
  5. Lưu trữ dữ liệu: Cơ sở dữ liệu do Occentus Networks (EU) lưu trữ
  6. Quyền: Bất cứ lúc nào bạn có thể giới hạn, khôi phục và xóa thông tin của mình.