Google เปิดตัว Lyra V2 ซึ่งเป็นตัวแปลงสัญญาณโอเพ่นซอร์สบิตเรตต่ำ

Lyra ตัวแปลงสัญญาณเสียงของ Google

Google เปิดตัว Lyra รุ่นที่สอง ซึ่งเป็นตัวแปลงสัญญาณคุณภาพสูงและอัตราบิตต่ำที่ทำให้การสื่อสารด้วยเสียงใช้ได้แม้ในเครือข่ายที่ช้าที่สุด

เมื่อเร็ว ๆ นี้ Google เปิดตัวผ่านบล็อกโพสต์ปล่อยเวอร์ชันที่สองของตัวแปลงสัญญาณเสียงของคุณ «ไลรา-V2», ซึ่งใช้เทคนิคการเรียนรู้ของเครื่องเพื่อให้ได้คุณภาพเสียงสูงสุดเมื่อใช้ช่องทางการสื่อสารที่ช้ามาก

รุ่นใหม่ แนะนำการเปลี่ยนแปลงสู่สถาปัตยกรรมโครงข่ายประสาทเทียมใหม่ รองรับแพลตฟอร์มเพิ่มเติม ปรับปรุงการควบคุมบิตเรต ปรับปรุงประสิทธิภาพ และคุณภาพเสียงที่สูงขึ้น

เรากำลังเปิดตัว Lyra V2 ด้วยสถาปัตยกรรมใหม่ที่รองรับแพลตฟอร์มที่กว้างขึ้น มีความสามารถบิตเรตที่ปรับขนาดได้ ประสิทธิภาพที่ดีขึ้น และเสียงคุณภาพสูงขึ้น ด้วยการเปิดตัวครั้งนี้ เราตั้งตารอที่จะพัฒนาต่อไปร่วมกับชุมชน และด้วยความคิดสร้างสรรค์ร่วมกันของคุณ เราจะได้เห็นแอปพลิเคชันใหม่ๆ ที่กำลังพัฒนาและทิศทางใหม่ๆ เกิดขึ้น

เกี่ยวกับไลรา

เกี่ยวกับคุณภาพของข้อมูลเสียงที่ส่งด้วยความเร็วต่ำ Lyra เหนือกว่าตัวแปลงสัญญาณแบบเดิมอย่างมาก ที่ใช้วิธีการประมวลผลสัญญาณดิจิตอล เพื่อให้ได้การส่งสัญญาณเสียงคุณภาพสูงภายใต้เงื่อนไขของข้อมูลที่ส่งในจำนวนที่จำกัด นอกเหนือจากวิธีการบีบอัดเสียงและการแปลงสัญญาณตามปกติ Lyra ใช้รูปแบบเสียงตามระบบการเรียนรู้ของเครื่อง ซึ่งช่วยให้คุณสร้างข้อมูลที่ขาดหายไปได้ ตามลักษณะการพูดทั่วไป

ตัวแปลงสัญญาณประกอบด้วยตัวเข้ารหัสและตัวถอดรหัส อัลกอริทึมการเข้ารหัส แยกพารามิเตอร์ข้อมูลเสียงทุก ๆ 20 มิลลิวินาที บีบอัดและโอนไปยังผู้รับ ผ่านเครือข่ายด้วยอัตราบิต 3,2 kbps ถึง 9,2 kbps

ด้านเครื่องรับ ตัวถอดรหัสใช้แบบจำลองกำเนิดเพื่อสร้างสัญญาณเสียงพูดดั้งเดิมขึ้นใหม่โดยอิงจากพารามิเตอร์เสียงที่ส่ง รวมถึงสเปกโตรแกรมชอล์กลอการิทึมที่คำนึงถึงลักษณะพลังงานของคำพูดในช่วงความถี่ต่างๆ และจัดทำขึ้นโดยคำนึงถึงการรับรู้ทางหูของมนุษย์ .

มีอะไรใหม่ใน Lyra V2?

Lyra V2 ใช้โมเดล generative ใหม่โดยยึดตามเครือข่ายนิวรัล SoundStreamซึ่งมีข้อกำหนดในการคำนวณต่ำ ทำให้สามารถถอดรหัสแบบเรียลไทม์ได้แม้ในระบบที่ใช้พลังงานต่ำ

โมเดลที่ใช้สร้างเสียงได้รับการฝึกอบรมโดยใช้การบันทึกเสียงหลายพันชั่วโมงในกว่า 90 ภาษา (TensorFlow Lite ใช้สำหรับเรียกใช้โมเดล). ประสิทธิภาพของการใช้งานที่เสนอนั้นเพียงพอที่จะเข้ารหัสและถอดรหัสเสียงบนสมาร์ทโฟนที่มีช่วงราคาต่ำที่สุด

นอกเหนือจากการใช้แบบจำลองกำเนิดอื่นแล้ว เวอร์ชันใหม่ยังโดดเด่นด้วยการรวมลิงก์เข้ากับตัวระบุ RVQ (Residual Vector Quantizer) ในสถาปัตยกรรมโคเดกซึ่งดำเนินการในด้านผู้ส่งก่อนการส่งข้อมูล และที่ฝั่งผู้รับหลังการรับข้อมูล

quantizer จะแปลงพารามิเตอร์ที่ตัวแปลงสัญญาณให้มาเป็นชุดของแพ็กเก็ต โดยเข้ารหัสข้อมูลที่สัมพันธ์กับอัตราบิตที่เลือก เพื่อให้แน่ใจว่าระดับคุณภาพที่แตกต่างกัน quantizers มีให้สำหรับสามบิตเรต (3,2kbps, 6kbps และ 9,2kbps) ยิ่งบิตเรตสูง คุณภาพยิ่งดีขึ้น แต่ความต้องการแบนด์วิดท์ยิ่งสูงขึ้น ของแบนด์

สถาปัตยกรรมใหม่ ลดความล่าช้าในการส่งสัญญาณจาก 100 มิลลิวินาทีเป็น 20 มิลลิวินาที สำหรับการเปรียบเทียบ Opus codec สำหรับ WebRTC แสดงความล่าช้า 26,5 ms, 46,5 ms และ 66,5 ms ที่อัตราบิตที่ทดสอบ ประสิทธิภาพของตัวเข้ารหัสและตัวถอดรหัสก็เพิ่มขึ้นเช่นกัน: เทียบกับรุ่นก่อนมีอัตราเร่งถึง 5 เท่า ตัวอย่างเช่น ในสมาร์ทโฟน Pixel 6 Pro ตัวแปลงสัญญาณใหม่จะเข้ารหัสและถอดรหัสตัวอย่าง 20ms ใน 0,57ms ซึ่งเร็วกว่าที่จำเป็นสำหรับการสตรีมแบบเรียลไทม์ 35 เท่า

นอกจากประสิทธิภาพแล้ว เรายังปรับปรุงคุณภาพของการฟื้นฟูเสียงอีกด้วย: ตามมาตราส่วน MUSHRA คุณภาพเสียงพูดที่อัตราบิต 3,2 kbps 6 kbps และ 9,2 kbps เมื่อใช้ Lyra V2 codec สอดคล้องกับอัตราบิต 10 kbps 13 kbps และ 14 kbps เมื่อใช้ Opus codec

ในที่สุด หากคุณสนใจที่จะทราบข้อมูลเพิ่มเติมคุณสามารถตรวจสอบรายละเอียดได้ใน ลิงค์ต่อไปนี้


แสดงความคิดเห็นของคุณ

อีเมล์ของคุณจะไม่ถูกเผยแพร่ ช่องที่ต้องการถูกทำเครื่องหมายด้วย *

*

*

  1. ผู้รับผิดชอบข้อมูล: Miguel ÁngelGatón
  2. วัตถุประสงค์ของข้อมูล: ควบคุมสแปมการจัดการความคิดเห็น
  3. ถูกต้องตามกฎหมาย: ความยินยอมของคุณ
  4. การสื่อสารข้อมูล: ข้อมูลจะไม่ถูกสื่อสารไปยังบุคคลที่สามยกเว้นตามข้อผูกพันทางกฎหมาย
  5. การจัดเก็บข้อมูล: ฐานข้อมูลที่โฮสต์โดย Occentus Networks (EU)
  6. สิทธิ์: คุณสามารถ จำกัด กู้คืนและลบข้อมูลของคุณได้ตลอดเวลา