Исследователи Google выпустили новости о разработке новой структуры, которая расширяет обучение моделей искусственного интеллекта на тысячи машин. Результат называется СЕМЕНА RL (масштабируемое эффективное глубокое обучение с подкреплением).
Это многообещающая разработка потому что я должен позволяют обучать алгоритмы искусственного интеллекта со скоростью миллионов изображений в секунду и сократить затраты на это обучение на 80%, говорится в исследовании Google.
Такое сокращение может помочь уравнять правила игры для стартапов. которые до сих пор не могли конкурировать с такими основными, как Google, в области ИИ. Стоимость обучения сложных моделей машинного обучения в облаке удивительно высока. Google формализует открытие кода SEED RL, проекта, направленного на оптимизацию соотношения затрат и производительности обучения с подкреплением.
Обучение с подкреплением - это очень специфический подход к варианту использования, при котором агенты узнают о своей среде посредством исследования и оптимизируют свои действия для получения наибольшего вознаграждения.
В разделе «SEED RL: масштабируемый и эффективный глубокий RL с ускоренным центральным выводом» мы представили агент RL, который масштабируется до тысяч машин, позволяя обучать со скоростью миллионов кадров в секунду и значительно повышая эффективность вычислений. Это достигается с помощью новой архитектуры, которая использует преимущества ускорителей (GPU или TPU) в большом масштабе за счет централизации вывода модели и введения уровня быстрой связи.
Мы демонстрируем производительность SEED RL на популярных тестах RL, таких как Google Research Football, Arcade Learning Environment и DeepMind Lab, и показываем, что с помощью более крупных моделей можно повысить эффективность данных. Код был открыт на Github вместе с примерами для запуска в Google Cloud с GPU.
SEED RL основан на платформе TensorFlow 2.0. y работает с использованием комбинации графических процессоров и блоки обработки тензоров для централизации вывода модели. Вывод делается централизованно с использованием обучающего компонента, обучающего модель.
Переменные и информация о состоянии целевой модели хранятся локально. и наблюдения по ним отправляются студенту на каждом этапе процесса. SEED RL также использует сетевую библиотеку, основанную на универсальной платформе RPC с открытым исходным кодом, чтобы минимизировать задержку.
Исследователи Google заявили, что обучающий компонент от SEED RL может быть расширен до тысяч ядер, в то время как количество действующих лиц, которые должны повторяться между измерениями в среде и выполнением вывода модели для прогнозирования следующего действия, может быть увеличено до тысяч машин.
Google оценил эффективность SEED RL, сравнив ее с популярной учебной средой Arcade, средой Google Research Football и различными средами DeepMind Lab. Результаты показывают, что им удалось решить задачу Google Research Football, обучая модель со скоростью 2,4 миллиона кадров в секунду. с использованием 64 микросхем блока обработки тензорных облаков.
По словам Google, это примерно в 80 раз быстрее, чем предыдущие кадры.
«Это приводит к значительному ускорению времени, поскольку ускорители намного дешевле в расчете на одну операцию, чем процессоры, стоимость экспериментов резко снижается». Мы считаем, что SEED RL и представленные результаты показывают, что обучение с подкреплением снова догнало остальную часть глубокого обучения с точки зрения использования ускорителей », - пишет Лассе Эспехольт, инженер-исследователь Google Research.
С архитектурой, оптимизированной для использования в современных ускорителях, естественно увеличить размер модели в попытке повысить эффективность обработки данных.
Google сказал, что код SEED RL является открытым исходным кодом и доступен на Github, а также примеры, показывающие, как заставить его работать в Google Cloud с графическими процессорами.
Наконец, для тех, кто заинтересован в этой новой структуре, они могут перейти по следующей ссылке, где они могут найти дополнительную информацию о ней. Ссылка такая.
источник: https://ai.googleblog.com/