Гугл је објавио В2 од Лира, отвореног кодека ниске битрате

Лира, Гоогле аудио кодек

Гугл је објавио другу верзију Лире, свог висококвалитетног кодека са ниском брзином у битовима који чини гласовну комуникацију доступном чак и на најспоријим мрежама.

Недавно Гугл је представљен путем поста на блогу, издајући другу верзију вашег аудио кодека «Лира-В2», који користи технике машинског учења за постизање највишег квалитета гласа када се користе веома спори комуникациони канали.

Нова верзија уводи прелазак на нову архитектуру неуронске мреже, подршка за додатне платформе, побољшана контрола брзине преноса, побољшања перформанси и виши квалитет звука.

Сада објављујемо Лира В2, са новом архитектуром која ужива ширу подршку платформе, пружа скалабилне могућности брзине преноса, боље перформансе и квалитетнији звук. Са овим издањем, радујемо се што ћемо наставити да се развијамо са заједницом и, уз вашу колективну креативност, видимо нове апликације које се развијају и нове правце који се појављују.

О Лири

Што се тиче квалитета говорних података који се преносе малом брзином, Лира је знатно супериорнија од традиционалних кодека који користе методе дигиталне обраде сигнала. Да би се постигао квалитетан пренос гласа у условима ограничене количине пренетих информација, поред уобичајених метода компресије звука и конверзије сигнала, Лира користи гласовни модел заснован на систему машинског учења што вам омогућава да поново креирате информације које недостају. на основу типичних говорних карактеристика.

Кодек укључује енкодер и декодер. Алгоритам кодера издваја параметре говорних података сваких 20 милисекунди, компресује их и преноси примаоцу преко мреже са брзином пријеноса од 3,2 кбпс до 9,2 кбпс.

На страни пријемника, декодер користи генеративни модел да поново креира оригинални говорни сигнал на основу пренетих аудио параметара, укључујући логаритамске спектрограме креде који узимају у обзир енергетске карактеристике говора у различитим фреквентним опсезима. и припремљени су имајући на уму људску слушну перцепцију. .

Шта је ново у Лира В2?

Лира В2 користи нови генеративни модел заснован на СоундСтреам неуронској мрежи, који има ниске рачунарске захтеве, омогућавајући декодирање у реалном времену чак и на системима мале снаге.

Модел који се користи за генерисање звука је обучен коришћењем неколико хиљада сати гласовних снимака на више од 90 језика (ТенсорФлов Лите се користи за покретање модела). Перформансе предложене имплементације су довољне за кодирање и декодирање гласа на паметним телефонима најнижег ценовног ранга.

Поред коришћења другачијег генеративног модела, нова верзија се такође истиче по укључивању веза са РВК квантификатором (Ресидуал Вецтор Куантизер) у архитектури кодека, који се врши на страни пошиљаоца пре преноса података, а на страни пријемника након пријема података.

Квантизер конвертује параметре које даје кодек у скупове пакета, кодирајући информације у односу на изабрану брзину протока. Да би се обезбедили различити нивои квалитета, квантизатори су обезбеђени за три брзине преноса (3,2кбпс, 6кбпс и 9,2кбпс), што је већа брзина, бољи је квалитет, али су захтеви за ширину опсега већи.

нова архитектура има смањена кашњења у преносу сигнала са 100 милисекунди на 20 милисекунди. Поређења ради, кодек Опус за ВебРТЦ показао је кашњење од 26,5 мс, 46,5 мс и 66,5 мс при тестираним брзинама битова. Перформансе кодера и декодера су такође значајно повећане: У поређењу са претходном верзијом, постоји убрзање до 5 пута. На пример, на паметном телефону Пикел 6 Про, нови кодек кодира и декодира узорак од 20 мс за 0,57 мс, што је 35 пута брже него што је потребно за стримовање у реалном времену.

Поред перформанси, успели смо да побољшамо и квалитет рестаурације звука: према МУСХРА скали, квалитет говора при брзинама битова од 3,2 кбпс, 6 кбпс и 9,2 кбпс када се користи Лира В2 кодек одговара брзини од 10 кбпс, 13 кбпс и 14 кбпс када користите Опус кодек.

Коначно ако сте заинтересовани да сазнате више о томе, детаље можете погледати у следећи линк.


Оставите свој коментар

Ваша емаил адреса неће бити објављена. Обавезна поља су означена са *

*

*

  1. За податке одговоран: Мигуел Ангел Гатон
  2. Сврха података: Контрола нежељене поште, управљање коментарима.
  3. Легитимација: Ваш пристанак
  4. Комуникација података: Подаци се неће преносити трећим лицима, осим по законској обавези.
  5. Похрана података: База података коју хостује Оццентус Нетворкс (ЕУ)
  6. Права: У било ком тренутку можете ограничити, опоравити и избрисати своје податке.