SEED RL, un marco de código abierto de Google para modelos de inteligencia artificial

Los investigadores de Google dieron a conocer la noticia sobre su desarrollo de un nuevo marco que extiende la capacitación de modelos de inteligencia artificial a miles de máquinas. El resultado se llama SEED RL (aprendizaje de refuerzo profundo eficiente escalable).

Este es un desarrollo prometedor porque debería permitir entrenar algoritmos de inteligencia artificial a millones de imágenes por segundo y reducir los costos de esta capacitación en un 80%, dijo Google en un documento de investigación.

Este tipo de reducción podría ayudar a nivelar el campo de juego para las nuevas empresas que hasta ahora no han podido competir con los principales como Google en el campo de la IA. El costo de entrenar modelos sofisticados de aprendizaje automático en la nube es sorprendentemente alto. Google formaliza la apertura del código SEED RL, un proyecto destinado a optimizar la relación costo/rendimiento del aprendizaje por refuerzo.

El aprendizaje de refuerzo es un enfoque muy específico de caso de uso en el que los agentes aprenden sobre su entorno a través de la exploración y optimizan sus acciones para obtener la mayor cantidad de recompensas.

En » SEED RL: Deep-RL escalable y eficiente con inferencia central acelerada», Presentamos un agente de RL que escala a miles de máquinas, lo que permite la capacitación a millones de fotogramas por segundo y mejora significativamente la eficiencia computacional. Esto se logra con una arquitectura novedosa que aprovecha los aceleradores ( GPU o TPU ) a escala centralizando la inferencia del modelo e introduciendo una capa de comunicación rápida.

Demostramos el rendimiento de SEED RL en los puntos de referencia de RL populares, como Google Research Football , Arcade Learning Environment y DeepMind Lab , y mostramos que al usar modelos más grandes, se puede aumentar la eficiencia de los datos. El código ha sido abierto en Githubjunto con ejemplos para ejecutarse en Google Cloud con GPU.

SEED RL se basa en el marco TensorFlow 2.0 y funciona utilizando una combinación de unidades de procesamiento de gráficos y unidades de procesamiento de tensor para centralizar la inferencia del modelo. La inferencia se realiza centralmente utilizando un componente de aprendizaje que entrena el modelo.

Las variables y la información de estado del modelo objetivo se almacenan localmente y las observaciones sobre ellas se envían al alumno en cada etapa del proceso. SEED RL también utiliza una biblioteca de red basada en el marco RPC universal de código abierto para minimizar la latencia.

Los investigadores de Google han dicho que el componente de aprendizaje de SEED RL puede ampliarse a miles de núcleos, mientras que el número de actores que se repetirá entre tomar medidas en el entorno y ejecutar Una inferencia sobre el modelo para predecir la próxima acción, se puede escalar en miles de máquinas.

Google evaluó la efectividad de SEED RL comparándolo con el popular entorno de aprendizaje Arcade, el entorno de Google Research Football y varios entornos de DeepMind Lab. Los resultados muestran que lograron resolver una tarea de Google Research Football mientras entrenaban el modelo a 2,4 millones de fotogramas por segundo utilizando 64 chips de la unidad de procesamiento del tensor de la nube.

Es aproximadamente 80 veces más rápido que los cuadros anteriores, dijo Google.

«Esto se traduce en una aceleración de tiempo significativa, ya que los aceleradores son mucho más baratos por operación que las CPU, el costo de los experimentos se reduce drásticamente». Creemos que SEED RL y los resultados presentados demuestran que el aprendizaje por refuerzo ha alcanzado una vez más al resto del aprendizaje profundo en términos de uso del acelerador «, escribe Lasse Espeholt, ingeniero de investigación en Google Research .

Con una arquitectura optimizada para su uso en aceleradores modernos, es natural aumentar el tamaño del modelo en un intento de aumentar la eficiencia de los datos.

Google dijo que el código SEED RL era de código abierto y estaba disponible en Github, así como ejemplos que muestran cómo hacerlo funcionar en Google Cloud con unidades de procesamiento de gráficos.

Finalmente para aquellos que estén interesados en este nuevo marco, pueden dirigirse al siguiente enlace donde podrán encontrar más información al respecto. El enlace es este. 

Fuente: https://ai.googleblog.com/


El contenido del artículo se adhiere a nuestros principios de ética editorial. Para notificar un error pincha aquí.

Sé el primero en comentar

Deja tu comentario

Tu dirección de correo electrónico no será publicada.

*

*

  1. Responsable de los datos: Miguel Ángel Gatón
  2. Finalidad de los datos: Controlar el SPAM, gestión de comentarios.
  3. Legitimación: Tu consentimiento
  4. Comunicación de los datos: No se comunicarán los datos a terceros salvo por obligación legal.
  5. Almacenamiento de los datos: Base de datos alojada en Occentus Networks (UE)
  6. Derechos: En cualquier momento puedes limitar, recuperar y borrar tu información.