Firma Google udostępniła kod źródłowy Lyry, kodeka audio dla systemu Android 

Kilka dni temu Wydano deweloperów Google za pośrednictwem wpisu na blogu, który zrobili decyzja, aby Lyra stała się open source. Lyra opiera się na uczeniu maszynowym, aby umożliwić wysokiej jakości połączenia głosowe w sytuacjach o małej przepustowości.

Z którym to korzyści i pozwala innym programistom zasilać swoje aplikacje komunikację i rozwijanie Lyry w nowych kierunkach.

Kodeki, które od dziesięcioleci były podstawą aplikacji multimedialnych, umożliwiły aplikacjom wymagającym dużej przepustowości wydajną transmisję danych.

Takie jak, rozwój kodeków, zarówno dla wideo, jak i audio, stanowi ciągłe wyzwanie- Zapewniaj coraz wyższą jakość, wykorzystuj mniej danych i minimalizuj opóźnienia w komunikacji w czasie rzeczywistym.

Chociaż może się wydawać, że wideo zużywa znacznie więcej pasma niż dźwięk, nowoczesne kodeki wideo mogą osiągać niższe szybkości transmisji niż niektóre z obecnie używanych wysokiej jakości kodeków mowy.

Połączenie Kodeki głosowe i wideo o niskiej przepływności mogą zapewnić wysoką jakość połączeń wideo nawet w sieciach o małej przepustowości. Jednak historycznie rzecz biorąc, im niższa przepływność kodeka audio, tym mniej zrozumiały jest sygnał głosowy i tym bardziej jest on robotyczny.

Ponadto, chociaż niektórzy ludzie mają dostęp do stałej, wysokiej jakości sieci szerokopasmowej, ten poziom łączności nie jest uniwersalny, a nawet ludzie mieszkający w dobrze skomunikowanych obszarach mają czasami słabe połączenia sieciowe, słabe połączenia sieciowe i brak łączności.

By rozwiązać ten problem, Firma Google stworzyła Lyra, wysokiej jakości kodek mowy o bardzo niskiej przepływności co sprawia, że ​​komunikacja głosowa jest dostępna nawet w najwolniejszych sieciach.

Aby to zrobić Google zastosował tradycyjne techniki kodowania, korzystając z osiągnięć w uczeniu maszynowym z modelami trenowanymi przez tysiące godzin danych w celu stworzenia nowej metody kompresji i transmisji sygnałów głosowych.

Kod Lyry jest napisany w C ++ dla szybkości, wydajność i interoperacyjność, a ponadto wykorzystuje platformę Bazel z Abseil i platformę GoogleTest do pełnych testów jednostkowych.

Podstawowy interfejs API zapewnia interfejs do kodowania i dekodowania na poziomie pakietów i plików. Dostarczany jest również kompletny łańcuch narzędzi do przetwarzania sygnałów, zawierający różne filtry i transformacje.

„Nasza przykładowa aplikacja integruje się z Android NDK, aby pokazać, jak zintegrować natywny kod Lyry z aplikacją na Androida opartą na Javie. Zapewniamy również wagi wektorów i kwantyfikatory potrzebne do uruchomienia Lyry ”- powiedział Google. Ta wersja zapewnia programistom niezbędne narzędzia do kodowania i dekodowania dźwięku za pomocą Lyry, zoptymalizowanej dla 64-bitowej platformy Android ARM, z wersją dla systemu Linux.

Cechy są dekodowane do postaci falowej przy użyciu modelu generatywnego. Modele generatywne to specjalny typ modelu uczenia maszynowego, dobrze nadający się do odtwarzania pełnego przebiegu audio z ograniczonej liczby funkcji.

Architektura Lyry jest bardzo podobna do tradycyjnych kodeków audio, które od dziesięcioleci stanowią podstawę komunikacji internetowej. Podczas gdy te tradycyjne kodeki są oparte na technikach cyfrowego przetwarzania sygnału, Lyra opiera się na zdolności modelu generatywnego do rekonstrukcji wysokiej jakości sygnału mowy.

Google wdrożył Lyrę w swojej bezpłatnej aplikacji do rozmów wideo Duo i powiedział, że tworzy kod open source, ponieważ uważa, że ​​może być odpowiedni dla innych aplikacji.

Google uważa, że ​​istnieje wiele aplikacji, do których Lyra może być odpowiednia, niezależnie od tego, czy chodzi o archiwizowanie dużych ilości głosu, oszczędzanie baterii czy łagodzenie przeciążenia sieci w ruchliwych sytuacjach.

„Z niecierpliwością czekamy na kreatywność charakteryzującą społeczność open source zastosowaną do Lyry w celu dostarczania potężnych i unikalnych aplikacji” - powiedział Google.

źródło: https://opensource.googleblog.com


Zostaw swój komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *

*

*

  1. Odpowiedzialny za dane: Miguel Ángel Gatón
  2. Cel danych: kontrola spamu, zarządzanie komentarzami.
  3. Legitymacja: Twoja zgoda
  4. Przekazywanie danych: Dane nie będą przekazywane stronom trzecim, z wyjątkiem obowiązku prawnego.
  5. Przechowywanie danych: baza danych hostowana przez Occentus Networks (UE)
  6. Prawa: w dowolnym momencie możesz ograniczyć, odzyskać i usunąć swoje dane.