nylig Google afslørede via et blogindlæg, frigiver den anden version af dit lyd-codec "Lyra-V2", som bruger maskinlæringsteknikker til at opnå den højeste stemmekvalitet ved brug af meget langsomme kommunikationskanaler.
Den nye version introducerer en overgang til en ny neural netværksarkitektur, understøttelse af yderligere platforme, forbedret bitrate-kontrol, ydeevneforbedringer og højere lydkvalitet.
Vi udgiver nu Lyra V2, med en ny arkitektur, der nyder godt af bredere platformsunderstøttelse, giver skalerbare bitrate-kapaciteter, bedre ydeevne og lyd af højere kvalitet. Med denne udgivelse ser vi frem til at fortsætte med at udvikle os med fællesskabet og, med din kollektive kreativitet, se nye applikationer blive udviklet og nye retninger dukke op.
Om Lyra
Med hensyn til kvaliteten af stemmedata, der transmitteres ved lav hastighed, Lyra er betydeligt bedre end traditionelle codecs der bruger digitale signalbehandlingsmetoder. For at opnå stemmetransmission af høj kvalitet under forhold med en begrænset mængde transmitteret information, ud over de sædvanlige lydkomprimering og signalkonverteringsmetoder, Lyra bruger en stemmemodel baseret på et maskinlæringssystem som giver dig mulighed for at genskabe de manglende oplysninger. baseret på typiske taleegenskaber.
Codec'et inkluderer en koder og en dekoder. Encoder-algoritmen udtrækker stemmedataparametrene hvert 20. millisekund, komprimerer dem og overfører dem til modtageren over netværket med en bithastighed på 3,2 kbps til 9,2 kbps.
På modtagersiden anvender dekoderen en generativ model til at genskabe det originale talesignal baseret på transmitterede lydparametre, inklusive logaritmiske kridtspektrogrammer, der tager højde for tales energikarakteristika i forskellige frekvensområder. og er forberedt med menneskelig auditiv perception i tankerne. .
Hvad er nyt i Lyra V2?
Lyra V2 bruger en ny generativ model baseret på SoundStream neurale netværk, som har lave beregningskrav, hvilket tillader realtidsdekodning selv på systemer med lavt strømforbrug.
Modellen, der bruges til at generere lyden, er blevet trænet ved hjælp af flere tusinde timers stemmeoptagelser på mere end 90 sprog (TensorFlow Lite bruges til at køre modellen). Ydeevnen af den foreslåede implementering er tilstrækkelig til at kode og afkode stemme på smartphones i den laveste prisklasse.
Ud over at bruge en anden generativ model, den nye version skiller sig også ud ved at inkludere links til RVQ kvantifier (Residual Vector Quantizer) i codec-arkitekturen, som udføres på afsendersiden før datatransmission og på modtagersiden efter datamodtagelse.
Kvantizeren konverterer parametrene tilvejebragt af codec'et til sæt af pakker, der koder informationen i forhold til den valgte bithastighed. For at sikre forskellige kvalitetsniveauer leveres kvantizere til tre bithastigheder (3,2 kbps, 6 kbps og 9,2 kbps), jo højere bithastighed, jo bedre kvalitet, men jo højere båndbreddekrav.
den nye arkitektur har reduceret signaltransmissionsforsinkelser fra 100 millisekunder til 20 millisekunder. Til sammenligning viste Opus codec til WebRTC forsinkelser på 26,5 ms, 46,5 ms og 66,5 ms ved de testede bithastigheder. Encoder og dekoder ydeevne er også steget betydeligt: Sammenlignet med den tidligere version er der en acceleration på op til 5 gange. For eksempel, på Pixel 6 Pro-smartphonen, koder og afkoder det nye codec en 20 ms sample på 0,57 ms, hvilket er 35 gange hurtigere, end det er nødvendigt for realtidsstreaming.
Ud over ydeevnen lykkedes det os også at forbedre kvaliteten af lydgendannelse: ifølge MUSHRA-skalaen svarer talekvalitet ved bithastigheder på 3,2 kbps, 6 kbps og 9,2 kbps, når du bruger Lyra V2 codec, til bithastigheder på 10 kbps, 13 kbps og 14 kbps ved brug af Opus codec.
Endelig hvis du er interesseret i at vide mere om det, kan du tjekke detaljerne i følgende link.