SEED RL, platforma Google Open Source dla modeli sztucznej inteligencji

L Badacze Google ujawnili wiadomości o opracowaniu nowej platformy, która rozszerza szkolenie modeli AI na tysiące maszyn. Wynik nazywa się NASIONA RL (skalowalna, wydajna nauka głębokiego wzmacniania).

To obiecujący rozwój bo powinienem pozwalają trenować algorytmy sztucznej inteligencji do milionów obrazów na sekundę i obniżyć koszty tego szkolenia o 80%, powiedział Google w artykule badawczym.

Tego rodzaju redukcja może pomóc wyrównać szanse dla startupów. które do tej pory nie były w stanie konkurować z głównymi, takimi jak Google, w dziedzinie AI. Koszt szkolenia zaawansowanych modeli uczenia maszynowego w chmurze jest zaskakująco wysoki. Google formalizuje otwarte źródło SEED RL, projekt mający na celu optymalizację stosunku kosztów do wydajności uczenia się przez wzmacnianie.

Uczenie się przez wzmacnianie to podejście bardzo specyficzne dla przypadku użycia, w którym agenci dowiadują się o swoim środowisku poprzez eksplorację i optymalizują swoje działania, aby uzyskać jak najwięcej nagród.

W „SEED RL: Scalable and Efficient Deep-RL with Accelerated Central Inference” przedstawiamy agenta RL, który skaluje się do tysięcy maszyn, umożliwiając trenowanie z prędkością milionów klatek na sekundę i znacznie poprawiając wydajność obliczeniową. Osiągnięto to dzięki nowatorskiej architekturze, która wykorzystuje akceleratory (GPU lub TPU) na dużą skalę, centralizując wnioskowanie o modelu i wprowadzając warstwę szybkiej komunikacji.

Pokazujemy wydajność SEED RL w porównaniu z popularnymi testami porównawczymi RL, takimi jak Google Research Football, Arcade Learning Environment i DeepMind Lab, i pokazujemy, że dzięki zastosowaniu większych modeli można zwiększyć wydajność danych. Kod został otwarty na Githubie wraz z przykładami do uruchomienia w Google Cloud z procesorami graficznymi.

SEED RL jest oparty na frameworku TensorFlow 2.0 y działa przy użyciu kombinacji jednostek przetwarzania grafiki i jednostki przetwarzania tensorowego w celu scentralizowania wnioskowania o modelu. Wnioskowanie odbywa się centralnie przy użyciu komponentu uczącego, który trenuje model.

Zmienne i informacje o stanie modelu docelowego są przechowywane lokalnie i informacja zwrotna na ich temat jest wysyłana do ucznia na każdym etapie procesu. SEED RL wykorzystuje również bibliotekę sieciową opartą na uniwersalnym środowisku RPC typu open source, aby zminimalizować opóźnienia.

L Badacze Google powiedzieli, że składnik uczenia się przez SEED RL możliwość skalowania do tysięcy rdzeni, podczas gdy liczba aktorów, którzy będą przechodzić między podjęciem działania w środowisku a uruchomieniem wnioskowania na temat modelu w celu przewidzenia następnej akcji, może być skalowana na tysiącach maszyn.

Google ocenił skuteczność SEED RL, porównując go z popularnym środowiskiem do nauki Arcade, środowiskiem Google Research Football i różnymi środowiskami DeepMind Lab. Wyniki pokazują, że udało im się rozwiązać zadanie Google Research Football podczas szkolenia modelu na 2,4 milionach klatek na sekundę przy użyciu 64 chipów procesora cloud tensor.

Jest około 80 razy szybszy niż poprzednie pudełka, powiedział Google.

„Przekłada się to na znaczne przyspieszenie czasu, ponieważ akceleratory są o wiele tańsze w przeliczeniu na operację niż procesory, koszt eksperymentów jest radykalnie zmniejszony”. Uważamy, że SEED RL i przedstawione wyniki pokazują, że uczenie się przez wzmacnianie ponownie dogoniło resztę głębokiego uczenia się pod względem wykorzystania akceleratorów” — pisze Lasse Espeholt, inżynier ds. badań w Google Research.

Dzięki architekturze zoptymalizowanej do użytku w nowoczesnych akceleratorach naturalne jest zwiększanie rozmiaru modelu w celu zwiększenia wydajności danych.

Google powiedział, że kod SEED RL jest open source i dostępny na Github, a także przykłady pokazujące, jak sprawić, by działał w Google Cloud z procesorami graficznymi.

Wreszcie, ci, którzy są zainteresowani tymi nowymi ramami, mogą przejść do następującego linku, gdzie mogą znaleźć więcej informacji na ten temat. Link jest taki. 

źródło: https://ai.googleblog.com/


Zostaw swój komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *

*

*

  1. Odpowiedzialny za dane: Miguel Ángel Gatón
  2. Cel danych: kontrola spamu, zarządzanie komentarzami.
  3. Legitymacja: Twoja zgoda
  4. Przekazywanie danych: Dane nie będą przekazywane stronom trzecim, z wyjątkiem obowiązku prawnego.
  5. Przechowywanie danych: baza danych hostowana przez Occentus Networks (UE)
  6. Prawa: w dowolnym momencie możesz ograniczyć, odzyskać i usunąć swoje dane.