Google släppte V2 av Lyra, lågbithastighets-codec för öppen källkod

Lyra, Googles ljudcodec

Google släppte den andra versionen av Lyra, dess högkvalitativa codec med låg bithastighet som gör röstkommunikation tillgänglig även på de långsammaste nätverken.

nyligen Google avslöjade via ett blogginlägg, släpper den andra versionen av din ljudcodec «Lyra-V2», som använder maskininlärningstekniker för att uppnå högsta röstkvalitet när man använder mycket långsamma kommunikationskanaler.

Den nya versionen introducerar en övergång till en ny neural nätverksarkitektur, stöd för ytterligare plattformar, förbättrad bithastighetskontroll, prestandaförbättringar och högre ljudkvalitet.

Vi släpper nu Lyra V2, med en ny arkitektur som åtnjuter bredare plattformsstöd, ger skalbara bithastighetsmöjligheter, bättre prestanda och högre ljudkvalitet. Med den här utgåvan ser vi fram emot att fortsätta utvecklas med samhället och, med din kollektiva kreativitet, se nya applikationer utvecklas och nya riktningar dyka upp.

Om Lyra

När det gäller kvaliteten på röstdata som överförs med låg hastighet, Lyra är betydligt överlägsen traditionella codecs som använder digitala signalbehandlingsmetoder. För att uppnå högkvalitativ röstöverföring under förhållanden med en begränsad mängd överförd information, utöver de vanliga metoderna för ljudkomprimering och signalomvandling, Lyra använder en röstmodell baserad på ett maskininlärningssystem som gör att du kan återskapa den saknade informationen. baserat på typiska talegenskaper.

Codecen inkluderar en kodare och en avkodare. Kodaralgoritmen extraherar röstdataparametrarna var 20:e millisekund, komprimerar dem och överför dem till mottagaren över nätverket med en bithastighet på 3,2 kbps till 9,2 kbps.

På mottagarsidan använder avkodaren en generativ modell för att återskapa den ursprungliga talsignalen baserat på överförda ljudparametrar, inklusive logaritmiska kritaspektrogram som tar hänsyn till tals energiegenskaper i olika frekvensområden. och är förberedda med mänsklig hörseluppfattning i åtanke. .

Vad är nytt i Lyra V2?

Lyra V2 använder en ny generativ modell baserad på SoundStreams neurala nätverk, som har låga beräkningskrav, vilket möjliggör realtidsavkodning även på system med låg effekt.

Modellen som används för att generera ljudet har tränats med flera tusen timmars röstinspelningar på mer än 90 språk (TensorFlow Lite används för att köra modellen). Prestandan för den föreslagna implementeringen är tillräcklig för att koda och avkoda röst på smartphones av lägsta prisklass.

Förutom att använda en annan generativ modell, den nya versionen sticker också ut för införandet av länkar till RVQ-kvantifieraren (Residual Vector Quantizer) i codec-arkitekturen, som utförs på avsändarsidan före dataöverföring och på mottagarsidan efter datamottagning.

Kvantiseraren omvandlar parametrarna som tillhandahålls av codec till uppsättningar av paket, som kodar informationen i förhållande till den valda bithastigheten. För att säkerställa olika kvalitetsnivåer finns kvantiserare för tre bithastigheter (3,2 kbps, 6 kbps och 9,2 kbps), ju högre bithastighet, desto bättre kvalitet, men desto högre bandbreddskrav.

den nya arkitekturen har reducerat signalöverföringsfördröjningar från 100 millisekunder till 20 millisekunder. Som jämförelse visade Opus codec för WebRTC fördröjningar på 26,5 ms, 46,5 ms och 66,5 ms vid de testade bithastigheterna. Kodar- och avkodarprestanda har också ökat avsevärt: Jämfört med den tidigare versionen finns det en acceleration på upp till 5 gånger. Till exempel på Pixel 6 Pro-smarttelefonen kodar och avkodar den nya codec ett 20ms sampel på 0,57ms, vilket är 35 gånger snabbare än vad som behövs för realtidsströmning.

Förutom prestanda har vi också lyckats förbättra kvaliteten på ljudåterställningen: enligt MUSHRA-skalan motsvarar talkvaliteten vid bithastigheter på 3,2 kbps, 6 kbps och 9,2 kbps när du använder Lyra V2-codec bithastigheter på 10 kbps, 13 kbps och 14 kbps när du använder Opus codec.

Slutligen om du är intresserad av att veta mer om detkan du kolla in detaljerna följande länk.


Lämna din kommentar

Din e-postadress kommer inte att publiceras. Obligatoriska fält är markerade med *

*

*

  1. Ansvarig för uppgifterna: Miguel Ángel Gatón
  2. Syftet med uppgifterna: Kontrollera skräppost, kommentarhantering.
  3. Legitimering: Ditt samtycke
  4. Kommunikation av uppgifterna: Uppgifterna kommer inte att kommuniceras till tredje part förutom enligt laglig skyldighet.
  5. Datalagring: databas värd för Occentus Networks (EU)
  6. Rättigheter: När som helst kan du begränsa, återställa och radera din information.