SEED RL, Google Open Framework для моделей штучного інтелекту

L Дослідники Google випустили новина про розробку нової системи, яка поширює навчання моделям штучного інтелекту на тисячі машин. Викликається результат НАСІННЯ RL (масштабоване ефективне глибоке підкріплення навчання).

це перспективний розвиток тому що я повинен дають можливість тренувати алгоритми штучного інтелекту зі швидкістю мільйонів зображень в секунду і зменшити витрати на це навчання на 80%, - йдеться у дослідницькій роботі Google.

Таке скорочення може допомогти вирівняти умови для стартапів. що до цього часу не мали змоги конкурувати з такими основними, як Google, у галузі ШІ. Вартість навчання складних моделей машинного навчання в хмарі напрочуд висока. Google формалізує відкриття коду SEED RL, проекту, спрямованого на оптимізацію співвідношення витрат / продуктивності навчання підкріплення.

Навчання підкріплення - це дуже специфічний підхід до використання, при якому агенти дізнаються про навколишнє середовище шляхом дослідження та оптимізують свої дії, щоб отримати найбільшу нагороду.

У розділі »SEED RL: масштабований та ефективний глибокий RL з прискореним центральним висновком» ми представили агент RL, який масштабується до тисяч машин, забезпечуючи навчання з мільйонами кадрів в секунду та значно покращуючи обчислювальну ефективність. Це досягається за допомогою нової архітектури, яка використовує переваги прискорювачів (GPU або TPU) в масштабі шляхом централізації висновку моделі та впровадження швидкого рівня зв'язку.

Ми демонструємо ефективність SEED RL на таких популярних тестах RL, як Google Research Football, Arcade Learning Environment та DeepMind Lab, і показуємо, що за допомогою більших моделей ефективність передачі даних може бути підвищена. Код відкрито на Github разом із прикладами для запуску в Google Cloud з графічним процесором.

SEED RL базується на рамках TensorFlow 2.0 y працює з використанням комбінації блоків обробки графіки і блоки обробки тензорів для централізації висновку про модель. Висновок робиться централізовано, використовуючи навчальний компонент, який тренує модель.

Змінні та інформація про стан цільової моделі зберігаються локально і спостереження за ними надсилаються студенту на кожному етапі процесу. SEED RL також використовує мережеву бібліотеку, засновану на універсальній структурі RPC з відкритим кодом, щоб мінімізувати затримки.

L Дослідники Google заявили, що навчальний компонент від SEED RL можна розширити до тисяч ядер, в той час як кількість дійових осіб, які слід повторити між проведенням вимірювань у навколишньому середовищі та виконанням висновку на моделі для прогнозування наступної дії, може бути збільшено до тисяч машин.

Google оцінив ефективність SEED RL, порівнявши її з популярним навчальним середовищем Arcade, середовищем Google Research Football та різними середовищами DeepMind Lab. Результати показують, що їм вдалося вирішити завдання Google Research Football, навчаючи модель зі швидкістю 2,4 мільйона кадрів в секунду з використанням 64 мікросхем блоку обробки хмарного тензора.

Це приблизно в 80 разів швидше, ніж попередні кадри, сказав Google.

"Це означає значне прискорення часу, оскільки прискорювачі набагато дешевші за операцію, ніж центральні процесори, і вартість експериментів різко знижується". Ми вважаємо, що SEED RL та представлені результати показують, що навчання підкріплення знову наздогнало решту глибокого навчання з точки зору використання акселератора ", - пише Лассе Еспехольт, інженер-дослідник Google Research.

З архітектурою, оптимізованою для використання в сучасних прискорювачах, природно збільшувати розмір моделі, намагаючись збільшити ефективність передачі даних.

Google заявив, що код SEED RL є відкритим і доступний на Github, а також приклади, що показують, як змусити його працювати на Google Cloud за допомогою графічних процесорів.

Нарешті, для тих, хто зацікавлений у цій новій структурі, вони можуть перейти за таким посиланням, де можуть знайти більше інформації про неї. Посилання це. 

Фуенте: https://ai.googleblog.com/


Будьте першим, щоб коментувати

Залиште свій коментар

Ваша електронна адреса не буде опублікований. Обов'язкові для заповнення поля позначені *

*

*

  1. Відповідальний за дані: Мігель Анхель Гатон
  2. Призначення даних: Контроль спаму, управління коментарями.
  3. Легітимація: Ваша згода
  4. Передача даних: Дані не передаватимуться третім особам, за винятком юридичних зобов’язань.
  5. Зберігання даних: База даних, розміщена в мережі Occentus Networks (ЄС)
  6. Права: Ви можете будь-коли обмежити, відновити та видалити свою інформацію.