Google julkaisi Lyran V2:n, matalan bittinopeuden avoimen lähdekoodin koodekin

Lyra Googlen äänikoodekki

Google julkaisi toisen version Lyrasta, sen korkealaatuisen, alhaisen bittinopeuden koodekin, joka mahdollistaa puheviestinnän jopa hitaimmissa verkoissa.

äskettäin Google paljastettiin blogitekstin kautta, julkaisemalla toisen version äänikoodekistasi "Lyra-V2", joka käyttää koneoppimistekniikoita korkeimman äänenlaadun saavuttamiseksi käytettäessä erittäin hitaita viestintäkanavia.

Uusi versio esittelee siirtymisen uuteen neuroverkkoarkkitehtuuriin, tuki lisäalustoille, parannettu bittinopeuden hallinta, suorituskyvyn parannukset ja parempi äänenlaatu.

Julkaisemme nyt Lyra V2:n, jossa on uusi arkkitehtuuri, joka nauttii laajemmasta alustatuesta, tarjoaa skaalautuvat bittinopeudet, paremman suorituskyvyn ja laadukkaamman äänen. Tämän julkaisun myötä odotamme innolla, että pääsemme kehittymään yhteisön kanssa ja näemme kollektiivisen luovuutenne avulla, että uusia sovelluksia kehitetään ja uusia suuntia syntyy.

Tietoja Lyrasta

Mitä tulee alhaisella nopeudella lähetetyn puhedatan laatuun, Lyra on huomattavasti parempi kuin perinteiset koodekit jotka käyttävät digitaalisia signaalinkäsittelymenetelmiä. Laadukkaan äänensiirron saavuttamiseksi rajoitetun tiedonsiirron olosuhteissa, tavallisten äänenpakkaus- ja signaalimuunnosmenetelmien lisäksi, Lyra käyttää koneoppimisjärjestelmään perustuvaa äänimallia jonka avulla voit luoda puuttuvat tiedot uudelleen. tyypillisten puheominaisuuksien perusteella.

Pakkauksenhallinta sisältää kooderin ja dekooderin. Enkooderin algoritmi poimii äänidataparametrit 20 millisekunnin välein, pakkaa ne ja siirtää ne vastaanottajalle verkon yli bittinopeudella 3,2 - 9,2 kbps.

Vastaanottimen puolella dekooderi käyttää generatiivista mallia luodakseen uudelleen alkuperäisen puhesignaalin lähetettyjen ääniparametrien perusteella, mukaan lukien logaritmiset liituspektrogrammit, jotka ottavat huomioon puheen energiaominaisuudet eri taajuusalueilla. .

Mitä uutta Lyra V2:ssa?

Lyra V2 käyttää uutta generatiivista mallia, joka perustuu SoundStream-hermoverkkoon, jolla on alhaiset laskentavaatimukset, mikä mahdollistaa reaaliaikaisen dekoodauksen jopa vähän virtaa käyttävissä järjestelmissä.

Äänen tuottamiseen käytetty malli on koulutettu useiden tuhansien tuntien äänitallenteiden avulla yli 90 kielellä (Mallin suorittamiseen käytetään TensorFlow Litea). Ehdotetun toteutuksen suorituskyky on riittävä äänen koodaamiseen ja purkamiseen alimman hintaluokan älypuhelimissa.

Sen lisäksi, että käytetään erilaista generatiivista mallia, uusi versio erottuu myös linkkien sisällyttämisestä RVQ-kvantoriin (Residual Vector Quantizer) koodekkiarkkitehtuurissa, joka suoritetaan lähettäjäpuolella ennen tiedonsiirtoa ja vastaanottajan puolella tiedon vastaanoton jälkeen.

Kvantisoija muuntaa koodekin toimittamat parametrit pakettijoukoiksi, koodaamalla informaation suhteessa valittuun bittinopeuteen. Eri laatutasojen varmistamiseksi kvantisoijia tarjotaan kolmelle bittinopeudelle (3,2 kbps, 6 kbps ja 9,2 kbps), mitä suurempi bittinopeus, sitä parempi laatu, mutta korkeammat kaistanleveysvaatimukset.

uutta arkkitehtuuria on vähentänyt signaalin lähetysviiveitä 100 millisekunnista 20 millisekuntiin. Vertailun vuoksi WebRTC:n Opus-koodekki osoitti 26,5 ms, 46,5 ms ja 66,5 ms viiveitä testatuilla bittinopeuksilla. Enkooderin ja dekooderin suorituskyky on myös parantunut merkittävästi: Edelliseen versioon verrattuna kiihtyvyys on jopa 5-kertainen. Esimerkiksi Pixel 6 Pro -älypuhelimessa uusi koodekki koodaa ja purkaa 20 ms:n näytteen 0,57 ms:ssa, mikä on 35 kertaa nopeampi kuin reaaliaikaiseen suoratoistoon tarvitaan.

Suorituskyvyn lisäksi onnistuimme parantamaan myös äänen palauttamisen laatua: MUSHRA-asteikon mukaan puheenlaatu 3,2 kbps, 6 kbps ja 9,2 kbps:n bittinopeudella Lyra V2 -koodekkia käytettäessä vastaa 10 kbps:n bittinopeutta, 13 kbps ja 14 kbps käytettäessä Opus-koodekkia.

Vihdoin jos olet kiinnostunut tietämään siitä lisää, voit tarkistaa yksityiskohdat seuraava linkki.


Jätä kommentti

Sähköpostiosoitettasi ei julkaista. Pakolliset kentät on merkitty *

*

*

  1. Vastuussa tiedoista: Miguel Ángel Gatón
  2. Tietojen tarkoitus: Roskapostin hallinta, kommenttien hallinta.
  3. Laillistaminen: Suostumuksesi
  4. Tietojen välittäminen: Tietoja ei luovuteta kolmansille osapuolille muutoin kuin lain nojalla.
  5. Tietojen varastointi: Occentus Networks (EU) isännöi tietokantaa
  6. Oikeudet: Voit milloin tahansa rajoittaa, palauttaa ja poistaa tietojasi.