SEED RL, et Google Open Source Framework for kunstig intelligensmodeller

den Google-forskere løslatt nyheten om utviklingen av et nytt rammeverk som utvider opplæringen av kunstig intelligensmodeller til tusenvis av maskiner. Resultatet kalles FRØ RL (skalerbar effektiv dyp forsterkningslæring).

Dette er en lovende utvikling fordi jeg burde muliggjøre opplæring av kunstig intelligensalgoritmer med millioner av bilder per sekund og redusere kostnadene ved denne opplæringen med 80%, sa Google i en forskningsartikkel.

Denne typen nedbemanning kan bidra til å styrke spillereglene for oppstart. som til nå ikke har vært i stand til å konkurrere med de viktigste som Google innen AI. Kostnaden for å trene sofistikerte maskinlæringsmodeller i skyen er overraskende høy. Google formaliserer åpningen av SEED RL-koden, et prosjekt som tar sikte på å optimalisere forholdet mellom pris og ytelse for forsterkningslæring.

Forsterkning læring er en veldig spesifikk brukstilfelle tilnærming der agenter lærer om miljøet sitt gjennom utforskning og optimaliserer sine handlinger for mest mulig belønning.

I »SEED RL: Scalable and Effective Deep-RL with Accelerated Central Inference" introduserte vi en RL-agent som skalerer til tusenvis av maskiner, som muliggjør opplæring i millioner av bilder per sekund og forbedrer beregningseffektiviteten betydelig. Dette oppnås med en ny arkitektur som utnytter akseleratorer (GPU eller TPU) i skala ved å sentralisere modellinferens og innføre et raskt kommunikasjonslag.

Vi demonstrerer SEED RL-ytelse på populære RL-referanser som Google Research Football, Arcade Learning Environment og DeepMind Lab, og viser at ved å bruke større modeller kan dataeffektiviteten økes. Koden har blitt åpnet på Github sammen med eksempler for å kjøre på Google Cloud med GPU.

SEED RL er basert på TensorFlow 2.0-rammeverket y fungerer ved hjelp av en kombinasjon av grafikkbehandlingsenheter og tensorbehandlingsenheter for å sentralisere modellinferanse. Inferens gjøres sentralt ved hjelp av en læringskomponent som trener modellen.

Variablene og tilstandsinformasjonen til målmodellen lagres lokalt og observasjoner om dem sendes til studenten på hvert trinn i prosessen. SEED RL bruker også et nettverksbibliotek basert på open source universal RPC framework for å minimere ventetid.

den Google-forskere har sagt at læringskomponenten av SEED RL kan utvides til tusenvis av kjerner, mens antall aktører som skal gjentas mellom å ta målinger i miljøet og utføre en ledelse på modellen for å forutsi neste handling, kan skaleres opp til tusenvis av maskiner.

Google evaluerte effektiviteten til SEED RL ved å sammenligne den med det populære Arcade-læringsmiljøet, Google Research Football-miljøet og ulike DeepMind Lab-miljøer. Resultatene viser at de klarte å løse en Google Research Football-oppgave mens de trente modellen til 2,4 millioner bilder per sekund ved hjelp av 64 brikker fra skyen tensor prosesseringsenhet.

Det er omtrent 80 ganger raskere enn tidligere bilder, sa Google.

"Dette betyr betydelig tidsakselerasjon, ettersom akseleratorer er mye billigere per operasjon enn CPUer, reduseres kostnadene for eksperimenter drastisk." Vi mener SEED RL og resultatene som presenteres viser at forsterkningslæring igjen har tatt igjen resten av dyp læring når det gjelder akseleratorbruk, "skriver Lasse Espeholt, forskningsingeniør i Google Research.

Med en arkitektur som er optimalisert for bruk i moderne akseleratorer, er det naturlig å øke størrelsen på modellen i et forsøk på å øke dataeffektiviteten.

Google sa at SEED RL-koden var åpen kildekode og tilgjengelig på Github, samt eksempler som viser hvordan du får det til å fungere på Google Cloud med grafikkbehandlingsenheter.

Til slutt, for de som er interessert i dette nye rammeverket, kan de gå til følgende lenke der de kan finne mer informasjon om det. Koblingen er denne. 

Fuente: https://ai.googleblog.com/


Legg igjen kommentaren

Din e-postadresse vil ikke bli publisert. Obligatoriske felt er merket med *

*

*

  1. Ansvarlig for dataene: Miguel Ángel Gatón
  2. Formålet med dataene: Kontroller SPAM, kommentaradministrasjon.
  3. Legitimering: Ditt samtykke
  4. Kommunikasjon av dataene: Dataene vil ikke bli kommunisert til tredjeparter bortsett fra ved juridisk forpliktelse.
  5. Datalagring: Database vert for Occentus Networks (EU)
  6. Rettigheter: Når som helst kan du begrense, gjenopprette og slette informasjonen din.