SEED RL, Googleov okvir otvorenog koda za modele umjetne inteligencije

The Googleovi istraživači objavili vijest o razvoju novog okvira koji proširuje obuku modela umjetne inteligencije na tisuće strojeva. Rezultat se zove SJEMENA RL (skalabilno učinkovito učenje dubokog pojačanja).

Ovo je obećavajući razvoj događaja jer bih trebao omogućuju trening algoritama umjetne inteligencije za milijune slika u sekundi i smanjiti troškove ove obuke za 80%, rekao je Google u istraživačkom radu.

Ovakva vrsta smanjenja mogla bi pomoći ujednačavanju uvjeta za startupe. koji se do sada nisu mogli natjecati s glavnima poput Googlea na polju AI. Cijena obuke sofisticiranih modela strojnog učenja u oblaku iznenađujuće je visoka. Google formalizira otvaranje SEED RL koda, projekta usmjerenog na optimizaciju omjera troškova i izvedbe učenja ojačanja.

Učenje s pojačanjem vrlo je specifičan pristup slučaja u kojem agenti istražuju svoje okruženje i optimiziraju svoje postupke kako bi dobili najviše nagrada.

U »SEED RL: Skalabilan i učinkovit duboki RL s ubrzanim središnjim zaključivanjem« predstavili smo RL agent koji se skalira na tisuće strojeva, omogućavajući trening s milijunima sličica u sekundi i značajno poboljšavajući računalnu učinkovitost. To se postiže novom arhitekturom koja iskorištava akceleratore (GPU ili TPU) u mjeri centraliziranjem zaključivanja modela i uvođenjem brzog komunikacijskog sloja.

Demonstriramo izvedbu SEED RL-a na popularnim RL mjerilima, kao što su Google Research Football, Arcade Learning Environment i DeepMind Lab, i pokazujemo da se upotrebom većih modela može povećati učinkovitost podataka. Kôd je otvoren na Githubu, zajedno sa primjerima za pokretanje na Google Cloudu s GPU-om.

SEED RL temelji se na okviru TensorFlow 2.0 y radi pomoću kombinacije jedinica za obradu grafike i jedinice za obradu tenzora za centraliziranje zaključivanja modela. Zaključivanje se vrši centralno pomoću komponente za učenje koja trenira model.

Varijable i podaci o stanju ciljnog modela pohranjuju se lokalno a zapažanja o njima šalju se učeniku u svakoj fazi procesa. SEED RL također koristi mrežnu knjižnicu koja se temelji na univerzalnom RPC okviru otvorenog koda kako bi se smanjila kašnjenja.

The Googleovi istraživači rekli su da komponenta učenja od SEED RL može se proširiti na tisuće jezgri, dok se broj aktera koji se ponavljaju između mjerenja u okolišu i izvođenja zaključka na modelu da bi se predvidjela sljedeća radnja može povećati na tisuće strojeva.

Google je procijenio učinkovitost SEED RL-a uspoređujući ga s popularnim okruženjem za učenje Arcade, okružjem Google Research Football i raznim okruženjima DeepMind Lab. Rezultati pokazuju da su uspjeli riješiti zadatak Google Research Football-a dok su trenirali model na 2,4 milijuna sličica u sekundi koristeći 64 čipa procesorske jedinice za tensor oblaka.

To je oko 80 puta brže od prethodnih okvira, rekao je Google.

"To se pretvara u značajno vremensko ubrzanje, jer su akceleratori po operaciji mnogo jeftiniji od CPU-a, a troškovi eksperimenata drastično su smanjeni." Vjerujemo da SEED RL i predstavljeni rezultati pokazuju da je učenje pojačavanja opet sustiglo ostatak dubokog učenja u smislu upotrebe akceleratora ", piše Lasse Espeholt, inženjer istraživanja u Google Researchu.

S arhitekturom optimiziranom za uporabu u modernim akceleratorima, prirodno je povećati veličinu modela u pokušaju povećanja učinkovitosti podataka.

Google je rekao da je SEED RL kôd otvoren izvor i dostupan na Githubu, kao i primjere koji pokazuju kako ga natjerati da radi na Google Cloudu s jedinicama za obradu grafike.

Konačno, za one koji su zainteresirani za ovaj novi okvir, mogu otići na sljedeću poveznicu gdje mogu pronaći više informacija o njemu. Poveznica je ovo. 

izvor: https://ai.googleblog.com/


Ostavite svoj komentar

Vaša email adresa neće biti objavljen. Obavezna polja su označena s *

*

*

  1. Za podatke odgovoran: Miguel Ángel Gatón
  2. Svrha podataka: Kontrola neželjene pošte, upravljanje komentarima.
  3. Legitimacija: Vaš pristanak
  4. Komunikacija podataka: Podaci se neće dostavljati trećim stranama, osim po zakonskoj obvezi.
  5. Pohrana podataka: Baza podataka koju hostira Occentus Networks (EU)
  6. Prava: U bilo kojem trenutku možete ograničiti, oporaviti i izbrisati svoje podatke.