Google hat V2 von Lyra veröffentlicht, dem Open-Source-Codec mit niedriger Bitrate

Lyra, der Audio-Codec von Google

Google veröffentlichte die zweite Version von Lyra, seinem hochwertigen Codec mit niedriger Bitrate, der die Sprachkommunikation auch in den langsamsten Netzwerken verfügbar macht.

Vor kurzem Google enthüllt über einen Blog-Beitrag, wodurch die zweite Version Ihres Audio-Codecs veröffentlicht wird «Lyra-V2», die Techniken des maschinellen Lernens verwendet, um die höchste Sprachqualität zu erreichen, wenn sehr langsame Kommunikationskanäle verwendet werden.

Die neue Version führt einen Übergang zu einer neuen neuronalen Netzwerkarchitektur ein, Unterstützung für zusätzliche Plattformen, verbesserte Bitratensteuerung, Leistungsverbesserungen und höhere Audioqualität.

Wir veröffentlichen jetzt Lyra V2 mit einer neuen Architektur, die sich einer breiteren Plattformunterstützung erfreut und skalierbare Bitratenfunktionen, bessere Leistung und höhere Audioqualität bietet. Mit dieser Version freuen wir uns darauf, uns mit der Community weiterzuentwickeln und mit Ihrer kollektiven Kreativität zu sehen, wie neue Anwendungen entwickelt werden und neue Richtungen entstehen.

Über Lyra

In Bezug auf die Qualität von Sprachdaten, die mit niedriger Geschwindigkeit übertragen werden, Lyra ist herkömmlichen Codecs deutlich überlegen die digitale Signalverarbeitungsverfahren verwenden. Um eine qualitativ hochwertige Sprachübertragung unter Bedingungen einer begrenzten Menge übertragener Informationen zu erreichen, werden zusätzlich zu den üblichen Audiokompressions- und Signalumwandlungsverfahren Lyra verwendet ein Sprachmodell, das auf einem maschinellen Lernsystem basiert die es Ihnen ermöglicht, die fehlenden Informationen neu zu erstellen. basierend auf typischen Sprachmerkmalen.

Der Codec umfasst einen Codierer und einen Decodierer. Der Encoder-Algorithmus extrahiert alle 20 Millisekunden die Sprachdatenparameter, komprimiert sie und übermittelt sie an den Empfänger über das Netzwerk mit einer Bitrate von 3,2 kbps bis 9,2 kbps.

Auf der Empfängerseite verwendet der Decoder ein generatives Modell, um das ursprüngliche Sprachsignal basierend auf übertragenen Audioparametern wiederherzustellen, einschließlich logarithmischer Kreide-Spektrogramme, die die Energieeigenschaften von Sprache in verschiedenen Frequenzbereichen berücksichtigen und unter Berücksichtigung der menschlichen Hörwahrnehmung erstellt wurden .

Was ist neu in Lyra V2?

Lyra V2 verwendet ein neues generatives Modell, das auf dem neuronalen Netzwerk von SoundStream basiert, das geringe Rechenanforderungen hat und eine Echtzeitdecodierung auch auf Systemen mit geringem Stromverbrauch ermöglicht.

Das zur Tonerzeugung verwendete Modell wurde mit mehreren tausend Stunden Sprachaufzeichnungen in mehr als 90 Sprachen trainiert (TensorFlow Lite wird verwendet, um das Modell auszuführen). Die Leistung der vorgeschlagenen Implementierung reicht aus, um Sprache auf Smartphones der niedrigsten Preisklasse zu kodieren und zu dekodieren.

Neben der Verwendung eines anderen generativen Modells, Die neue Version zeichnet sich auch durch die Aufnahme von Verknüpfungen mit dem RVQ-Quantifizierer aus (Residual Vector Quantizer) in der Codec-Architektur, die auf der Senderseite vor der Datenübertragung und auf der Empfängerseite nach dem Datenempfang durchgeführt wird.

Der Quantisierer wandelt die vom Codec bereitgestellten Parameter in Sätze von Paketen um und codiert die Informationen relativ zur ausgewählten Bitrate. Um unterschiedliche Qualitätsstufen zu gewährleisten, sind Quantisierer für drei Bitraten (3,2 kbps, 6 kbps und 9,2 kbps) vorgesehen, je höher die Bitrate, desto besser die Qualität, aber desto höher die Bandbreitenanforderungen.

die neue Architektur hat Signalübertragungsverzögerungen von 100 Millisekunden auf 20 Millisekunden reduziert. Zum Vergleich: Der Opus-Codec für WebRTC zeigte Verzögerungen von 26,5 ms, 46,5 ms und 66,5 ms bei den getesteten Bitraten. Auch die Encoder- und Decoderleistung hat sich deutlich erhöht: Im Vergleich zur Vorgängerversion gibt es eine bis zu 5-fache Beschleunigung. Auf dem Pixel 6 Pro-Smartphone codiert und decodiert der neue Codec beispielsweise ein 20-ms-Sample in 0,57 ms, was 35-mal schneller ist als für Echtzeit-Streaming erforderlich.

Neben der Leistung ist es uns auch gelungen, die Qualität der Tonwiederherstellung zu verbessern: Laut der MUSHRA-Skala entspricht die Sprachqualität bei Bitraten von 3,2 kbps, 6 kbps und 9,2 kbps bei Verwendung des Lyra V2-Codecs Bitraten von 10 kbps, 13 kbps und 14 kbps bei Verwendung des Opus-Codecs.

Schließlich wenn Sie mehr darüber wissen möchtenkönnen Sie die Details einchecken den folgenden Link.


Hinterlasse einen Kommentar

Ihre E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind markiert mit *

*

*

  1. Verantwortlich für die Daten: Miguel Ángel Gatón
  2. Zweck der Daten: Kontrolle von SPAM, Kommentarverwaltung.
  3. Legitimation: Ihre Zustimmung
  4. Übermittlung der Daten: Die Daten werden nur durch gesetzliche Verpflichtung an Dritte weitergegeben.
  5. Datenspeicherung: Von Occentus Networks (EU) gehostete Datenbank
  6. Rechte: Sie können Ihre Informationen jederzeit einschränken, wiederherstellen und löschen.