SEED RL, un marc de codi obert de Google per models d'intel·ligència artificial

Els investigadors de Google van donar a conèixer la notícia sobre el seu desenvolupament d'un nou marc que estén la capacitació de models d'intel·ligència artificial a milers de màquines. El resultat es diu SEED RL (Aprenentatge de reforç profund eficient escalable).

Aquest és un desenvolupament prometedor perquè hauria permetre entrenar algoritmes d'intel·ligència artificial a milions d'imatges per segon i reduir els costos d'aquesta capacitació en un 80%, va dir Google en un document d'investigació.

Aquest tipus de reducció podria ajudar a anivellar el camp de joc per a les noves empreses que fins ara no han pogut competir amb els principals com Google en el camp de la IA. El cost d'entrenar models sofisticats d'aprenentatge automàtic en el núvol és sorprenentment alt. Google formalitza l'obertura d'el codi SEED RL, un projecte destinat a optimitzar la relació cost / rendiment de l'aprenentatge per reforç.

L'aprenentatge de reforç és un enfocament molt específic de cas d'ús en què els agents aprenen sobre el seu entorn a través de l'exploració i optimitzen les seves accions per obtenir la major quantitat de recompenses.

En »SEED RL: Deep-RL escalable i eficient amb inferència central accelerada», Presentem un agent de RL que escala a milers de màquines, el que permet la capacitació a milions de fotogrames per segon i millora significativament l'eficiència computacional. Això s'aconsegueix amb una arquitectura innovadora que aprofita els acceleradors (GPU o TPU) a escala centralitzant la inferència de el model i introduint una capa de comunicació ràpida.

Demostrem el rendiment de SEED RL en els punts de referència de RL populars, com Google Research Football, Arcade Learning Environment i DeepMind Lab, i vam mostrar que a l'usar models més grans, es pot augmentar l'eficiència de les dades. El codi ha estat obert a Githubjunto amb exemples per executar-se a Google Cloud amb GPU.

SEED RL es basa en el marc TensorFlow 2.0 y funciona utilitzant una combinació d'unitats de processament de gràfics i unitats de processament de tensor per centralitzar la inferència de el model. La inferència es realitza centralment utilitzant un component d'aprenentatge que entrena el model.

Les variables i la informació d'estat de el model objectiu s'emmagatzemen localment i les observacions sobre elles s'envien a l'alumne en cada etapa de l'procés. SEED RL també utilitza una biblioteca de xarxa basada en el marc RPC universal de codi obert per minimitzar la latència.

Els investigadors de Google han dit que el component d'aprenentatge de SEED RL pot ampliar-se a milers de nuclis, mentre que el nombre d'actors que es repetirà entre prendre mesures en l'entorn i executar Una inferència sobre el model per predir la propera acció, es pot escalar en milers de màquines.

Google va avaluar l'efectivitat de SEED RL comparant-lo amb el popular entorn d'aprenentatge Arcade, l'entorn de Google Research Football i diversos entorns de DeepMind Lab. Els resultats mostren que van aconseguir resoldre una tasca de Google Research Football mentre entrenaven el model a 2,4 milions de fotogrames per segon utilitzant 64 xips de la unitat de processament de l'tensor del núvol.

És aproximadament 80 vegades més ràpid que els quadres anteriors, va dir Google.

«Això es tradueix en una acceleració de temps significativa, ja que els acceleradors són molt més barats per operació que les CPU, el cost dels experiments es redueix dràsticament». Creiem que SEED RL i els resultats presentats demostren que l'aprenentatge per reforç ha assolit una vegada més a la resta de l'aprenentatge profund en termes d'ús de l'accelerador «, escriu Lasse Espeholt, enginyer d'investigació a Google Research.

Amb una arquitectura optimitzada per al seu ús en acceleradors moderns, és natural augmentar la mida de el model en un intent d'augmentar l'eficiència de les dades.

Google va dir que el codi SEED RL era de codi obert i estava disponible en Github, així com exemples que mostren com fer-lo funcionar a Google Cloud amb unitats de processament de gràfics.

Finalment per a aquells que estiguin interessats en aquest nou marc, poden dirigir-se a l'enllaç on podran trobar més informació a l'respecte. L'enllaç és aquest. 

font: https://ai.googleblog.com/


Sigues el primer a comentar

Deixa el teu comentari

La seva adreça de correu electrònic no es publicarà. Els camps obligatoris estan marcats amb *

*

*

  1. Responsable de les dades: Miguel Ángel Gatón
  2. Finalitat de les dades: Controlar l'SPAM, gestió de comentaris.
  3. Legitimació: El teu consentiment
  4. Comunicació de les dades: No es comunicaran les dades a tercers excepte per obligació legal.
  5. Emmagatzematge de les dades: Base de dades allotjada en Occentus Networks (UE)
  6. Drets: En qualsevol moment pots limitar, recuperar i esborrar la teva informació.