SEED RL, Google atvērtā koda ietvars mākslīgā intelekta modeļiem

L Google pētnieki atbrīvoja ziņas par tās jaunās struktūras izstrādi, kas paplašina mākslīgā intelekta modeļu apmācību tūkstošiem mašīnu. Rezultāts tiek saukts SĒKLAS RL (mērogojama efektīva dziļa pastiprināšanas mācīšanās).

Tas ir daudzsološa attīstība jo man vajadzētu ļauj mākslīgā intelekta algoritmus apmācīt miljoniem attēlu sekundē un samazināt šo apmācību izmaksas par 80%, teikts Google pētījumā.

Šāda veida samazināšana varētu palīdzēt izlīdzināt starta apstākļus. kas līdz šim nav spējuši konkurēt ar tādiem galvenajiem kā Google AI jomā. Izsmalcinātu mašīnmācīšanās modeļu apmācības izmaksas mākonī ir pārsteidzoši augstas. Google formalizē SEED RL koda atvēršanu - projektu, kura mērķis ir optimizēt mācīšanās pastiprināšanas izmaksu / veiktspējas attiecību.

Mācību pastiprināšana ir ļoti specifiska pieejas lietošanai pieeja, kurā aģenti uzzina par savu vidi, veicot izpēti, un optimizē savas darbības, lai iegūtu vislielāko atlīdzību.

Sadaļā »SEED RL: Scalable and Efficient Deep-RL with Accelerated Central Inference" mēs ieviesām RL aģentu, kas mērogojas tūkstošiem mašīnu, ļaujot trenēties ar ātrumu miljoniem kadru sekundē un ievērojami uzlabojot skaitļošanas efektivitāti. Tas tiek panākts ar jaunu arhitektūru, kas izmanto akseleratoru (GPU vai TPU) priekšrocības mērogā, centralizējot modeļa secinājumus un ieviešot ātru komunikācijas slāni.

Mēs demonstrējam SEED RL veiktspēju populāros RL etalonos, piemēram, Google Research Football, Arcade Learning Environment un DeepMind Lab, un parādām, ka, izmantojot lielākus modeļus, datu efektivitāti var palielināt. Github kods ir atvērts kopā ar piemēriem, lai palaistu Google Cloud ar GPU.

SEED RL pamatā ir TensorFlow 2.0 ietvars y darbojas, izmantojot grafikas apstrādes vienību kombināciju un tenzora apstrādes vienības, lai centralizētu modeļa secinājumu. Secinājums tiek veikts centralizēti, izmantojot mācību komponentu, kas apmāca modeli.

Mērķa modeļa mainīgie un stāvokļa informācija tiek glabāta lokāli un novērojumi par tiem tiek nosūtīti studentam katrā procesa posmā. Lai mazinātu latentumu, SEED RL izmanto arī tīkla bibliotēku, kuras pamatā ir universālā atvērtā koda RPC sistēma.

L Google pētnieki ir teikuši, ka mācību sastāvdaļa autors: SEED RL var paplašināt līdz tūkstošiem serdeņu, Lai gan dalībnieku skaits, kas jāatkārto starp mērījumu veikšanu vidē un modeļa secinājumu veikšanu, lai prognozētu nākamo darbību, var tikt palielināts līdz tūkstošiem mašīnu.

Google novērtēja SEED RL efektivitāti, salīdzinot to ar populāro Arcade mācību vidi, Google Research Football vidi un dažādām DeepMind Lab vidēm. Rezultāti liecina, ka viņiem izdevās atrisināt Google Research Football uzdevumu, apmācot modeli ar ātrumu 2,4 miljoni kadru sekundē. izmantojot 64 mākoņa tenzora apstrādes vienības mikroshēmas.

Tas ir aptuveni 80 reizes ātrāks nekā iepriekšējie kadri, sacīja Google.

"Tas nozīmē ievērojamu laika paātrinājumu, jo paātrinātāji vienā operācijā ir daudz lētāki nekā centrālie procesori, eksperimentu izmaksas tiek krasi samazinātas." Mēs uzskatām, ka SEED RL un uzrādītie rezultāti rāda, ka mācīšanās pastiprinātājos atkal ir panākusi pārējo dziļo mācīšanos paātrinātāja izmantošanas ziņā, "raksta Lasse Espeholt, Google Research pētījumu inženieris.

Ar arhitektūru, kas optimizēta lietošanai mūsdienu akseleratoros, ir dabiski palielināt modeļa izmēru, mēģinot palielināt datu efektivitāti.

Google teica, ka SEED RL kods ir atvērts avots un pieejams vietnē Github, kā arī piemēri, kas parāda, kā panākt, lai tas darbotos Google Cloud ar grafikas apstrādes vienībām.

Visbeidzot, tiem, kurus interesē šī jaunā sistēma, viņi var pāriet uz šo saiti, kur var atrast vairāk informācijas par to. Saite ir šī. 

Fuente: https://ai.googleblog.com/


Atstājiet savu komentāru

Jūsu e-pasta adrese netiks publicēta. Obligātie lauki ir atzīmēti ar *

*

*

  1. Atbildīgais par datiem: Migels Ángels Gatóns
  2. Datu mērķis: SPAM kontrole, komentāru pārvaldība.
  3. Legitimācija: jūsu piekrišana
  4. Datu paziņošana: Dati netiks paziņoti trešām personām, izņemot juridiskus pienākumus.
  5. Datu glabāšana: datu bāze, ko mitina Occentus Networks (ES)
  6. Tiesības: jebkurā laikā varat ierobežot, atjaunot un dzēst savu informāciju.