Google heeft V2 van Lyra uitgebracht, de open source codec met lage bitrate

Lyra de Google-audiocodec

Google heeft de tweede versie van Lyra uitgebracht, de hoogwaardige codec met lage bitrate die spraakcommunicatie zelfs op de langzaamste netwerken mogelijk maakt.

onlangs Google onthuld via een blogpost, de tweede versie van je audiocodec vrijgeven «Lyra-V2», die machine learning-technieken gebruikt om de hoogste spraakkwaliteit te bereiken bij het gebruik van zeer trage communicatiekanalen.

De nieuwe versie introduceert een overgang naar een nieuwe neurale netwerkarchitectuur, ondersteuning voor extra platforms, verbeterde bitrate-controle, prestatieverbeteringen en hogere audiokwaliteit.

We brengen nu Lyra V2 uit, met een nieuwe architectuur die bredere platformondersteuning biedt, schaalbare bitrate-mogelijkheden, betere prestaties en audio van hogere kwaliteit biedt. Met deze release kijken we ernaar uit om te blijven evolueren met de gemeenschap en, met uw collectieve creativiteit, zien we nieuwe toepassingen worden ontwikkeld en nieuwe richtingen ontstaan.

Over Lyra

Wat betreft de kwaliteit van spraakgegevens die met lage snelheid worden verzonden, Lyra is aanzienlijk beter dan traditionele codecs die digitale signaalverwerkingsmethoden gebruiken. Om spraakoverdracht van hoge kwaliteit te bereiken onder omstandigheden van een beperkte hoeveelheid verzonden informatie, naast de gebruikelijke methoden voor audiocompressie en signaalconversie, Lyra gebruikt een spraakmodel op basis van een machine learning-systeem waarmee u de ontbrekende informatie opnieuw kunt creëren. gebaseerd op typische spraakkenmerken.

De codec bevat een encoder en een decoder. Het coderingsalgoritme extraheert de spraakgegevensparameters elke 20 milliseconden, comprimeert ze en stuurt ze naar de ontvanger over het netwerk met een bitsnelheid van 3,2 kbps tot 9,2 kbps.

Aan de ontvangerzijde gebruikt de decoder een generatief model om het originele spraaksignaal te recreëren op basis van verzonden audioparameters, inclusief logaritmische krijtspectrogrammen die rekening houden met de energiekenmerken van spraak in verschillende frequentiebereiken en zijn voorbereid met menselijke auditieve waarneming in het achterhoofd .

Wat is er nieuw in Lyra V2?

Lyra V2 gebruikt een nieuw generatief model op basis van het SoundStream neurale netwerk, die weinig rekenkracht vereist, waardoor realtime decodering mogelijk is, zelfs op systemen met een laag energieverbruik.

Het model dat wordt gebruikt om het geluid te genereren, is getraind met behulp van enkele duizenden uren aan spraakopnames in meer dan 90 talen (TensorFlow Lite wordt gebruikt om het model uit te voeren). De prestaties van de voorgestelde implementatie zijn voldoende om spraak op smartphones van de laagste prijsklasse te coderen en decoderen.

Naast het gebruik van een ander generatief model, de nieuwe versie valt ook op door de opname van koppelingen met de RVQ-kwantificator (Residual Vector Quantizer) in de codec-architectuur, die wordt uitgevoerd aan de kant van de zender vóór gegevensoverdracht en aan de kant van de ontvanger na gegevensontvangst.

De quantizer converteert de parameters die door de codec worden geleverd in sets van pakketten, waarbij de informatie wordt gecodeerd met betrekking tot de geselecteerde bitsnelheid. Om verschillende kwaliteitsniveaus te garanderen, zijn er quantizers voorzien voor drie bitsnelheden (3,2 kbps, 6 kbps en 9,2 kbps), hoe hoger de bitsnelheid, hoe beter de kwaliteit, maar hoe hoger de bandbreedtevereisten.

de nieuwe architectuur heeft de vertragingen bij de signaaloverdracht teruggebracht van 100 milliseconden tot 20 milliseconden. Ter vergelijking: de Opus-codec voor WebRTC vertoonde vertragingen van 26,5 ms, 46,5 ms en 66,5 ms bij de geteste bitsnelheden. Encoder- en decoderprestaties zijn ook aanzienlijk verbeterd: Vergeleken met de vorige versie is er een versnelling tot 5 keer. Op de Pixel 6 Pro-smartphone codeert en decodeert de nieuwe codec bijvoorbeeld een sample van 20 ms in 0,57 ms, wat 35 keer sneller is dan nodig is voor realtime streaming.

Naast de prestaties zijn we er ook in geslaagd de kwaliteit van de geluidsherstel te verbeteren: volgens de MUSHRA-schaal komt de spraakkwaliteit bij bitsnelheden van 3,2 kbps, 6 kbps en 9,2 kbps bij gebruik van de Lyra V2-codec overeen met bitsnelheden van 10 kbps, 13 kbps en 14 kbps bij gebruik van de Opus-codec.

Eindelijk als u er meer over wilt weten, kunt u de details inchecken de volgende link.


Laat je reactie achter

Uw e-mailadres wordt niet gepubliceerd. Verplichte velden zijn gemarkeerd met *

*

*

  1. Verantwoordelijk voor de gegevens: Miguel Ángel Gatón
  2. Doel van de gegevens: Controle SPAM, commentaarbeheer.
  3. Legitimatie: uw toestemming
  4. Mededeling van de gegevens: De gegevens worden niet aan derden meegedeeld, behalve op grond van wettelijke verplichting.
  5. Gegevensopslag: database gehost door Occentus Networks (EU)
  6. Rechten: u kunt uw gegevens op elk moment beperken, herstellen en verwijderen.