SEED RL, ett Google Open Source Framework för artificiell intelligensmodeller

mycket Google-forskare släppte nyheterna om dess utveckling av ett nytt ramverk som utökar utbildning av artificiell intelligens till tusentals maskiner. Resultatet kallas FRÖ RL (skalbar effektiv djupförstärkning).

Detta är lovande utveckling för jag borde gör det möjligt att utbilda artificiell intelligensalgoritmer med miljontals bilder per sekund och sänka kostnaderna för denna utbildning med 80%, sa Google i ett forskningsarbete.

Denna typ av nedskärningar kan hjälpa till att jämföra spelplanen för nystartade företag. som hittills inte har kunnat konkurrera med de viktigaste som Google inom AI. Kostnaden för att träna sofistikerade maskininlärningsmodeller i molnet är förvånansvärt hög. Google formaliserar öppningen av SEED RL-koden, ett projekt som syftar till att optimera förhållandet mellan kostnad och prestanda för förstärkning.

Förstärkningsinlärning är ett mycket specifikt användningsfall där agenter lär sig om sin miljö genom utforskning och optimerar sina handlingar för de bästa belöningarna.

I »SEED RL: Scalable and Effective Deep-RL with Accelerated Central Inference" introducerade vi ett RL-agent som skalas till tusentals maskiner, vilket möjliggör träning i miljontals bilder per sekund och förbättrar beräkningseffektiviteten avsevärt. Detta uppnås med en ny arkitektur som utnyttjar acceleratorer (GPU eller TPU) i stor skala genom att centralisera modellinferens och införa ett snabbt kommunikationslager.

Vi visar SEED RL-prestanda på populära RL-riktmärken som Google Research Football, Arcade Learning Environment och DeepMind Lab och visar att genom att använda större modeller kan dataineffektiviteten ökas. Koden har öppnats på Github tillsammans med exempel som kan köras på Google Cloud med GPU.

SEED RL är baserat på TensorFlow 2.0-ramverket y fungerar med en kombination av grafikbehandlingsenheter och tensorbehandlingsenheter för att centralisera modellslutledning. Slutsats görs centralt med hjälp av en inlärningskomponent som tränar modellen.

Variabeln och tillståndsinformationen för målmodellen lagras lokalt och observationer om dem skickas till studenten i varje steg i processen. SEED RL använder också ett nätverksbibliotek baserat på det universella open source RPC-ramverket för att minimera latens.

mycket Google-forskare har sagt att inlärningskomponenten av SEED RL kan utvidgas till tusentals kärnor, medan antalet aktörer som ska upprepas mellan att ta mätningar i miljön och köra en slutsats om modellen för att förutsäga nästa åtgärd, kan skalas upp till tusentals maskiner.

Google utvärderade effektiviteten av SEED RL genom att jämföra den med den populära Arcade-inlärningsmiljön, Google Research Football-miljön och olika DeepMind Lab-miljöer. Resultaten visar att de lyckades lösa en Google Research Football-uppgift medan de tränade modellen till 2,4 miljoner bildrutor per sekund med 64 marker i molnetensorbehandlingsenheten.

Det är ungefär 80 gånger snabbare än tidigare bilder, sa Google.

"Detta innebär en betydande tidsacceleration, eftersom acceleratorer är mycket billigare per operation än processorer, kostnaden för experiment minskas drastiskt." Vi tror att SEED RL och de presenterade resultaten visar att förstärkningsinlärning återigen har fångat upp resten av djupinlärning när det gäller acceleratoranvändning, skriver Lasse Espeholt, forskningsingenjör på Google Research.

Med en arkitektur som är optimerad för användning i moderna acceleratorer är det naturligt att öka modellens storlek i ett försök att öka dataeffektiviteten.

Google sa att SEED RL-koden var öppen källkod och tillgänglig på Github, samt exempel som visar hur man får det att fungera i Google Cloud med grafikbehandlingsenheter.

Slutligen, för dem som är intresserade av detta nya ramverk, kan de gå till följande länk där de kan hitta mer information om det. Länken är den här. 

Fuente: https://ai.googleblog.com/


Lämna din kommentar

Din e-postadress kommer inte att publiceras. Obligatoriska fält är markerade med *

*

*

  1. Ansvarig för uppgifterna: Miguel Ángel Gatón
  2. Syftet med uppgifterna: Kontrollera skräppost, kommentarhantering.
  3. Legitimering: Ditt samtycke
  4. Kommunikation av uppgifterna: Uppgifterna kommer inte att kommuniceras till tredje part förutom enligt laglig skyldighet.
  5. Datalagring: databas värd för Occentus Networks (EU)
  6. Rättigheter: När som helst kan du begränsa, återställa och radera din information.