גוגל פרסמה את V2 של Lyra, קוד הקוד הפתוח בעל קצב סיביות נמוך

Lyra, Codec האודיו של Google

גוגל הוציאה את הגרסה השנייה של Lyra, ה-Codec האיכותי והנמוך שלה, שהופך את התקשורת הקולית לזמינה גם ברשתות האיטיות ביותר.

לאחרונה גוגל חשפה באמצעות פוסט בבלוג, משחרר את הגרסה השנייה של ה-codec האודיו שלך «Lyra-V2», שמשתמשת בטכניקות למידת מכונה כדי להשיג את איכות הקול הגבוהה ביותר בעת שימוש בערוצי תקשורת איטיים מאוד.

הגרסה החדשה מציג מעבר לארכיטקטורת רשת עצבית חדשה, תמיכה בפלטפורמות נוספות, בקרת קצב סיביות משופרת, שיפורי ביצועים ואיכות שמע גבוהה יותר.

כעת אנו משחררים את Lyra V2, עם ארכיטקטורה חדשה הנהנית מתמיכה רחבה יותר בפלטפורמה, מספקת יכולות סיביות ניתנות להרחבה, ביצועים טובים יותר ואודיו באיכות גבוהה יותר. עם מהדורה זו, אנו מצפים להמשיך ולהתפתח עם הקהילה, ועם היצירתיות הקולקטיבית שלך, לראות יישומים חדשים מפותחים וכיוונים חדשים צצים.

על ליירה

לגבי איכות הנתונים הקוליים המועברים במהירות נמוכה, Lyra עדיפה משמעותית על קודקים מסורתיים המשתמשים בשיטות עיבוד אותות דיגיטליות. על מנת להשיג שידור קולי באיכות גבוהה בתנאים של כמות מוגבלת של מידע משודר, בנוסף לשיטות דחיסת השמע והמרת אותות הרגילות, ליירה משתמשת במודל קול המבוסס על מערכת למידת מכונה מה שמאפשר לך ליצור מחדש את המידע החסר. מבוסס על מאפייני דיבור אופייניים.

ה-Codec כולל מקודד ומפענח. אלגוריתם המקודד מחלץ את פרמטרי נתוני הקול כל 20 מילישניות, דוחס אותם ומעביר אותם לנמען דרך הרשת עם קצב סיביות של 3,2 kbps עד 9,2 kbps.

בצד המקלט, המפענח משתמש במודל מחולל כדי ליצור מחדש את אות הדיבור המקורי בהתבסס על פרמטרי אודיו משודרים, כולל ספקטרוגרמות גיר לוגריתמיות הלוקחות בחשבון את מאפייני האנרגיה של דיבור בטווחי תדרים שונים. ומוכנות תוך מחשבה על תפיסה שמיעתית אנושית. .

מה חדש ב- Lyra V2?

Lyra V2 משתמשת במודל יצירתי חדש המבוסס על הרשת העצבית SoundStream, בעל דרישות חישוביות נמוכות, המאפשר פענוח בזמן אמת גם במערכות בעלות הספק נמוך.

הדגם המשמש ליצירת הסאונד עבר הכשרה באמצעות כמה אלפי שעות של הקלטות קול ביותר מ-90 שפות (TensorFlow Lite משמש להפעלת המודל). הביצועים של היישום המוצע מספיקים כדי לקודד ולפענח קול בסמארטפונים בטווח המחירים הנמוך ביותר.

בנוסף לשימוש במודל מחולל אחר, הגרסה החדשה בולטת גם בהכללת קישורים עם מכמת RVQ (Residual Vector Quantizer) בארכיטקטורת ה-codec, המתבצעת בצד השולח לפני שידור הנתונים, ובצד המקלט לאחר קליטת הנתונים.

הקוונט ממיר את הפרמטרים שמספק ה-codec לקבוצות של מנות, ומקודד את המידע ביחס לקצב הסיביות שנבחר. כדי להבטיח רמות איכות שונות, מסופקים קוונטים עבור שלושה קצבי סיביות (3,2kbps, 6kbps ו-9,2kbps), ככל שקצב הסיביות גבוה יותר, האיכות טובה יותר, אך ככל שדרישות רוחב הפס גבוהות יותר.

הארכיטקטורה החדשה הפחית את עיכובי שידור האות מ-100 מילישניות ל-20 מילישניות. לשם השוואה, ה-Codec Opus עבור WebRTC הראה עיכובים של 26,5 ms, 46,5 ms ו-66,5 ms בקצבי הסיביות שנבדקו. גם ביצועי המקודד והמפענח עלו באופן משמעותי: בהשוואה לגרסה הקודמת, יש תאוצה של עד פי 5. לדוגמה, בסמארטפון Pixel 6 Pro, ה-Codec החדש מקודד ומפענח דגימה של 20ms ב-0,57ms, שזה פי 35 מהיר יותר מהדרוש לסטרימינג בזמן אמת.

בנוסף לביצועים, הצלחנו גם לשפר את איכות שחזור הסאונד: לפי סולם MUSHRA, איכות דיבור בקצבי סיביות של 3,2 kbps, 6 kbps ו-9,2 kbps בעת שימוש ב-Codec Lyra V2 מתאימה לקצבי סיביות של 10 kbps, 13 kbps ו-14 kbps בעת שימוש ב-Codec Opus.

בסופו של דבר אם אתה מעוניין לדעת יותר על כך, אתה יכול לבדוק את הפרטים ב הקישור הבא.


השאירו את התגובה שלכם

כתובת הדוא"ל שלך לא תפורסם. שדות חובה מסומנים *

*

*

  1. אחראי לנתונים: מיגל אנחל גטון
  2. מטרת הנתונים: בקרת ספאם, ניהול תגובות.
  3. לגיטימציה: הסכמתך
  4. מסירת הנתונים: הנתונים לא יועברו לצדדים שלישיים אלא בהתחייבות חוקית.
  5. אחסון נתונים: מסד נתונים המתארח על ידי Occentus Networks (EU)
  6. זכויות: בכל עת תוכל להגביל, לשחזר ולמחוק את המידע שלך.