Google udgav V2 af Lyra, lavbitrate open source codec

Lyra, Googles lyd-codec

Google udgav den anden version af Lyra, dets højkvalitets-codec med lav bithastighed, der gør stemmekommunikation tilgængelig selv på de langsomste netværk.

nylig Google afslørede via et blogindlæg, frigiver den anden version af dit lyd-codec "Lyra-V2", som bruger maskinlæringsteknikker til at opnå den højeste stemmekvalitet ved brug af meget langsomme kommunikationskanaler.

Den nye version introducerer en overgang til en ny neural netværksarkitektur, understøttelse af yderligere platforme, forbedret bitrate-kontrol, ydeevneforbedringer og højere lydkvalitet.

Vi udgiver nu Lyra V2, med en ny arkitektur, der nyder godt af bredere platformsunderstøttelse, giver skalerbare bitrate-kapaciteter, bedre ydeevne og lyd af højere kvalitet. Med denne udgivelse ser vi frem til at fortsætte med at udvikle os med fællesskabet og, med din kollektive kreativitet, se nye applikationer blive udviklet og nye retninger dukke op.

Om Lyra

Med hensyn til kvaliteten af ​​stemmedata, der transmitteres ved lav hastighed, Lyra er betydeligt bedre end traditionelle codecs der bruger digitale signalbehandlingsmetoder. For at opnå stemmetransmission af høj kvalitet under forhold med en begrænset mængde transmitteret information, ud over de sædvanlige lydkomprimering og signalkonverteringsmetoder, Lyra bruger en stemmemodel baseret på et maskinlæringssystem som giver dig mulighed for at genskabe de manglende oplysninger. baseret på typiske taleegenskaber.

Codec'et inkluderer en koder og en dekoder. Encoder-algoritmen udtrækker stemmedataparametrene hvert 20. millisekund, komprimerer dem og overfører dem til modtageren over netværket med en bithastighed på 3,2 kbps til 9,2 kbps.

På modtagersiden anvender dekoderen en generativ model til at genskabe det originale talesignal baseret på transmitterede lydparametre, inklusive logaritmiske kridtspektrogrammer, der tager højde for tales energikarakteristika i forskellige frekvensområder. og er forberedt med menneskelig auditiv perception i tankerne. .

Hvad er nyt i Lyra V2?

Lyra V2 bruger en ny generativ model baseret på SoundStream neurale netværk, som har lave beregningskrav, hvilket tillader realtidsdekodning selv på systemer med lavt strømforbrug.

Modellen, der bruges til at generere lyden, er blevet trænet ved hjælp af flere tusinde timers stemmeoptagelser på mere end 90 sprog (TensorFlow Lite bruges til at køre modellen). Ydeevnen af ​​den foreslåede implementering er tilstrækkelig til at kode og afkode stemme på smartphones i den laveste prisklasse.

Ud over at bruge en anden generativ model, den nye version skiller sig også ud ved at inkludere links til RVQ kvantifier (Residual Vector Quantizer) i codec-arkitekturen, som udføres på afsendersiden før datatransmission og på modtagersiden efter datamodtagelse.

Kvantizeren konverterer parametrene tilvejebragt af codec'et til sæt af pakker, der koder informationen i forhold til den valgte bithastighed. For at sikre forskellige kvalitetsniveauer leveres kvantizere til tre bithastigheder (3,2 kbps, 6 kbps og 9,2 kbps), jo højere bithastighed, jo bedre kvalitet, men jo højere båndbreddekrav.

den nye arkitektur har reduceret signaltransmissionsforsinkelser fra 100 millisekunder til 20 millisekunder. Til sammenligning viste Opus codec til WebRTC forsinkelser på 26,5 ms, 46,5 ms og 66,5 ms ved de testede bithastigheder. Encoder og dekoder ydeevne er også steget betydeligt: Sammenlignet med den tidligere version er der en acceleration på op til 5 gange. For eksempel, på Pixel 6 Pro-smartphonen, koder og afkoder det nye codec en 20 ms sample på 0,57 ms, hvilket er 35 gange hurtigere, end det er nødvendigt for realtidsstreaming.

Ud over ydeevnen lykkedes det os også at forbedre kvaliteten af ​​lydgendannelse: ifølge MUSHRA-skalaen svarer talekvalitet ved bithastigheder på 3,2 kbps, 6 kbps og 9,2 kbps, når du bruger Lyra V2 codec, til bithastigheder på 10 kbps, 13 kbps og 14 kbps ved brug af Opus codec.

Endelig hvis du er interesseret i at vide mere om det, kan du tjekke detaljerne i følgende link.


Efterlad din kommentar

Din e-mailadresse vil ikke blive offentliggjort. Obligatoriske felter er markeret med *

*

*

  1. Ansvarlig for dataene: Miguel Ángel Gatón
  2. Formålet med dataene: Control SPAM, management af kommentarer.
  3. Legitimering: Dit samtykke
  4. Kommunikation af dataene: Dataene vil ikke blive kommunikeret til tredjemand, undtagen ved juridisk forpligtelse.
  5. Datalagring: Database hostet af Occentus Networks (EU)
  6. Rettigheder: Du kan til enhver tid begrænse, gendanne og slette dine oplysninger.