구글, 저비트레이트 오픈소스 코덱 라이라 V2 출시

Lyra Google 오디오 코덱

Google은 가장 느린 네트워크에서도 음성 통신을 사용할 수 있도록 하는 고품질의 낮은 비트 전송률 코덱인 Lyra의 두 번째 버전을 출시했습니다.

최근에 블로그를 통해 공개된 구글, 오디오 코덱의 두 번째 버전 출시 «Lyra-V2», 기계 학습 기술을 사용하여 매우 느린 통신 채널을 사용할 때 최고의 음성 품질을 달성합니다.

새로운 버전 새로운 신경망 아키텍처로의 전환을 소개합니다. 추가 플랫폼 지원, 향상된 비트 전송률 제어, 성능 개선 및 더 높은 오디오 품질.

이제 더 광범위한 플랫폼 지원을 즐기고 확장 가능한 비트 전송률 기능, 더 나은 성능 및 고품질 오디오를 제공하는 새로운 아키텍처와 함께 Lyra V2를 출시합니다. 이번 릴리스를 통해 커뮤니티와 함께 ​​지속적으로 발전하고 여러분의 공동 창의성으로 새로운 애플리케이션이 개발되고 새로운 방향이 나타나는 것을 기대합니다.

거문고 소개

저속으로 전송되는 음성 데이터의 품질과 관련하여, Lyra는 기존 코덱보다 훨씬 우수합니다. 디지털 신호 처리 방법을 사용합니다. 전송되는 정보의 양이 제한된 조건에서 고품질의 음성 전송을 달성하기 위해 일반적인 오디오 압축 및 신호 변환 방법 외에도 Lyra는 기계 학습 시스템 기반의 음성 모델을 사용합니다. 누락된 정보를 다시 만들 수 있습니다. 일반적인 음성 특성을 기반으로 합니다.

코덱은 인코더와 디코더를 포함합니다. 인코더 알고리즘 20밀리초마다 음성 데이터 매개변수를 추출하고 압축하여 수신자에게 전송합니다. 3,2kbps ~ 9,2kbps의 비트 전송률로 네트워크를 통해

수신기 측에서 디코더는 생성 모델을 사용하여 다양한 주파수 범위에서 음성의 에너지 특성을 고려하고 인간의 청각 인식을 염두에 두고 준비된 로그 분필 스펙트로그램을 포함하여 전송된 오디오 매개변수를 기반으로 원래 음성 신호를 재생성합니다. .

Lyra V2의 새로운 기능은 무엇입니까?

Lyra V2는 SoundStream 신경망을 기반으로 하는 새로운 생성 모델을 사용합니다., 계산 요구 사항이 낮아 저전력 시스템에서도 실시간 디코딩이 가능합니다.

소리 생성에 사용된 모델은 90개 이상의 언어로 수천 시간의 음성 녹음을 사용하여 훈련되었습니다.TensorFlow Lite는 모델을 실행하는 데 사용됩니다.). 제안된 구현의 성능은 최저 가격대의 스마트폰에서 음성을 인코딩 및 디코딩하기에 충분합니다.

다른 생성 모델을 사용하는 것 외에도 새 버전은 또한 RVQ 수량자와의 링크가 포함되어 있습니다. (Residual Vector Quantizer) 코덱 아키텍처에서 데이터 전송 전에 발신자 측에서 수행하고 데이터 수신 후에 수신자 측에서 수행됩니다.

양자화기는 코덱이 제공하는 매개변수를 패킷 세트로 변환하여 선택한 비트 전송률에 대한 정보를 인코딩합니다. 다른 품질 수준을 보장하기 위해 3,2개의 비트 전송률(6kbps, 9,2kbps 및 XNUMXkbps)에 대해 양자화기가 제공되며, 비트 전송률이 높을수록 품질은 좋지만 대역폭 요구 사항은 더 높아집니다.

새로운 건축 신호 전송 지연을 100밀리초에서 20밀리초로 줄였습니다. 비교를 위해 WebRTC용 Opus 코덱은 테스트된 비트 전송률에서 26,5ms, 46,5ms 및 66,5ms의 지연을 보여주었습니다. 인코더 및 디코더 성능도 크게 향상되었습니다.: 이전 버전과 비교하여 최대 5배의 가속도가 있습니다. 예를 들어 Pixel 6 Pro 스마트폰에서 새로운 코덱은 실시간 스트리밍에 필요한 것보다 20배 빠른 0,57ms의 35ms 샘플을 인코딩 및 디코딩합니다.

성능 외에도 사운드 복원 품질을 개선했습니다. MUSHRA 척도에 따르면 Lyra V3,2 코덱을 사용할 때 6kbps, 9,2kbps 및 2kbps의 비트 전송률에서 음성 품질은 10kbps의 비트 전송률에 해당하며, Opus 코덱 사용 시 13kbps 및 14kbps.

최종적으로 그것에 대해 더 많이 알고 싶다면에서 세부 정보를 확인할 수 있습니다. 다음 링크.


코멘트를 남겨주세요

귀하의 이메일 주소는 공개되지 않습니다. 필수 필드가 표시되어 있습니다 *

*

*

  1. 데이터 책임자 : Miguel Ángel Gatón
  2. 데이터의 목적 : 스팸 제어, 댓글 관리.
  3. 합법성 : 귀하의 동의
  4. 데이터 전달 : 법적 의무에 의한 경우를 제외하고 데이터는 제 XNUMX 자에게 전달되지 않습니다.
  5. 데이터 저장소 : Occentus Networks (EU)에서 호스팅하는 데이터베이스
  6. 권리 : 귀하는 언제든지 귀하의 정보를 제한, 복구 및 삭제할 수 있습니다.