Google đã phát hành phiên bản V2 của Lyra, codec mã nguồn mở tốc độ bit thấp

Lyra bộ giải mã âm thanh của Google

Google đã phát hành phiên bản thứ hai của Lyra, codec chất lượng cao, tốc độ bit thấp giúp giao tiếp bằng giọng nói khả dụng ngay cả trên các mạng chậm nhất.

Gần đây Google đã công bố thông qua một bài đăng trên blog, phát hành phiên bản thứ hai của codec âm thanh của bạn «Lyra-V2», trong đó sử dụng các kỹ thuật máy học để đạt được chất lượng thoại cao nhất khi sử dụng các kênh giao tiếp rất chậm.

Phiên bản mới giới thiệu sự chuyển đổi sang kiến ​​trúc mạng nơ-ron mới, hỗ trợ cho các nền tảng bổ sung, cải thiện kiểm soát tốc độ bit, cải thiện hiệu suất và chất lượng âm thanh cao hơn.

Chúng tôi hiện đang phát hành Lyra V2, với kiến ​​trúc mới hỗ trợ nền tảng rộng hơn, cung cấp khả năng tốc độ bit có thể mở rộng, hiệu suất tốt hơn và âm thanh chất lượng cao hơn. Với bản phát hành này, chúng tôi mong muốn tiếp tục phát triển cùng với cộng đồng và với sự sáng tạo tập thể của bạn, thấy các ứng dụng mới đang được phát triển và các hướng đi mới đang xuất hiện.

Về Lyra

Về chất lượng dữ liệu thoại được truyền ở tốc độ thấp, Lyra vượt trội hơn đáng kể so với codec truyền thống sử dụng các phương pháp xử lý tín hiệu kỹ thuật số. Để đạt được khả năng truyền thoại chất lượng cao trong điều kiện lượng thông tin được truyền hạn chế, ngoài các phương pháp nén âm thanh và chuyển đổi tín hiệu thông thường, Lyra sử dụng mô hình giọng nói dựa trên hệ thống máy học cho phép bạn tạo lại thông tin bị thiếu. dựa trên đặc điểm lời nói tiêu biểu.

Bộ giải mã bao gồm một bộ mã hóa và một bộ giải mã. Thuật toán bộ mã hóa trích xuất các tham số dữ liệu giọng nói sau mỗi 20 mili giây, nén chúng và chuyển chúng đến người nhận qua mạng với tốc độ bit từ 3,2 kbps đến 9,2 kbps.

Ở phía máy thu, bộ giải mã sử dụng mô hình tổng hợp để tạo lại tín hiệu giọng nói ban đầu dựa trên các thông số âm thanh được truyền đi, bao gồm cả các biểu đồ phổ lô-ga-rít có tính đến các đặc điểm năng lượng của giọng nói trong các dải tần số khác nhau và được chuẩn bị với nhận thức thính giác của con người. .

Có gì mới trong Lyra V2?

Lyra V2 sử dụng một mô hình chung mới dựa trên mạng nơ-ron SoundStream, có yêu cầu tính toán thấp, cho phép giải mã thời gian thực ngay cả trên các hệ thống công suất thấp.

Mô hình được sử dụng để tạo ra âm thanh đã được đào tạo bằng cách sử dụng hàng nghìn giờ ghi âm giọng nói trong hơn 90 ngôn ngữ (TensorFlow Lite được sử dụng để chạy mô hình). Hiệu suất của việc triển khai được đề xuất là đủ để mã hóa và giải mã giọng nói trên điện thoại thông minh có mức giá thấp nhất.

Ngoài việc sử dụng một mô hình tổng hợp khác, phiên bản mới cũng nổi bật với việc bao gồm các liên kết với bộ định lượng RVQ (Bộ định lượng vectơ dư) trong kiến ​​trúc codec, được thực hiện ở phía người gửi trước khi truyền dữ liệu và ở phía người nhận sau khi nhận dữ liệu.

Bộ lượng tử chuyển đổi các tham số được cung cấp bởi codec thành tập hợp các gói, mã hóa thông tin liên quan đến tốc độ bit đã chọn. Để đảm bảo các mức chất lượng khác nhau, các bộ định lượng được cung cấp cho ba tốc độ bit (3,2kbps, 6kbps và 9,2kbps), tốc độ bit càng cao thì chất lượng càng tốt, nhưng yêu cầu cao hơn về băng thông.

kiến trúc mới đã giảm độ trễ truyền tín hiệu từ 100 mili giây xuống 20 mili giây. Để so sánh, codec Opus cho WebRTC cho thấy độ trễ 26,5 ms, 46,5 ms và 66,5 ms ở tốc độ bit được thử nghiệm. Hiệu suất của bộ mã hóa và bộ giải mã cũng đã tăng lên đáng kể: So với phiên bản trước có khả năng tăng tốc gấp 5 lần. Ví dụ: trên điện thoại thông minh Pixel 6 Pro, codec mới mã hóa và giải mã một mẫu 20ms trong 0,57ms, nhanh hơn 35 lần so với mức cần thiết để phát trực tuyến trong thời gian thực.

Ngoài hiệu suất, chúng tôi cũng cố gắng cải thiện chất lượng khôi phục âm thanh: theo thang MUSHRA, chất lượng giọng nói ở tốc độ bit 3,2 kbps, 6 kbps và 9,2 kbps khi sử dụng codec Lyra V2 tương ứng với tốc độ bit 10 kbps, 13 kbps và 14 kbps khi sử dụng codec Opus.

Cuối cùng nếu bạn muốn biết thêm về nó, bạn có thể kiểm tra các chi tiết trong liên kết sau.


Để lại bình luận của bạn

địa chỉ email của bạn sẽ không được công bố. Các trường bắt buộc được đánh dấu bằng *

*

*

  1. Chịu trách nhiệm về dữ liệu: Miguel Ángel Gatón
  2. Mục đích của dữ liệu: Kiểm soát SPAM, quản lý bình luận.
  3. Hợp pháp: Sự đồng ý của bạn
  4. Truyền thông dữ liệu: Dữ liệu sẽ không được thông báo cho các bên thứ ba trừ khi có nghĩa vụ pháp lý.
  5. Lưu trữ dữ liệu: Cơ sở dữ liệu do Occentus Networks (EU) lưu trữ
  6. Quyền: Bất cứ lúc nào bạn có thể giới hạn, khôi phục và xóa thông tin của mình.