SEED RL, Google Open Source okvir za modele umjetne inteligencije

u Googleovi istraživači su objavili vijest o njegovom razvoju novog okvira koji proširuje obuku modela umjetne inteligencije na hiljade mašina. Rezultat se zove SEED RL (skalabilno efikasno učenje dubokog pojačanja).

Ovo je obećavajući razvoj jer bih trebao omogućiti vježbanje algoritama umjetne inteligencije na milionima slika u sekundi i smanjiti troškove ove obuke za 80%, rekao je Google u istraživačkom radu.

Ovakva vrsta smanjenja mogla bi pomoći ujednačavanju uvjeta za startupe. koji se do sada nisu mogli nadmetati s glavnima poput Googlea na polju AI. Troškovi obuke sofisticiranih modela mašinskog učenja u oblaku iznenađujuće su visoki. Google formalizira otvaranje SEED RL koda, projekta čiji je cilj optimizacija omjera troškova i učinka učenja ojačanja.

Učenje za pojačanje je vrlo specifičan pristup slučaja u kojem agenti istražuju svoje okruženje i optimiziraju svoje akcije kako bi dobili najviše nagrada.

U »SEED RL: skalabilni i efikasni duboki RL sa ubrzanim centralnim zaključivanjem« uveli smo RL agent koji se skalira na hiljade mašina, omogućavajući obuku sa milionima sličica u sekundi i značajno poboljšavajući računsku efikasnost. To se postiže novom arhitekturom koja koristi prednosti akceleratora (GPU ili TPU) centralizirajući zaključivanje modela i uvodeći brzi komunikacijski sloj.

Demonstriramo performanse SEED RL-a na popularnim RL mjerilima, kao što su Google Research Football, Arcade Learning Environment i DeepMind Lab, i pokazujemo da se upotrebom većih modela može povećati efikasnost podataka. Kôd je otvoren na Github-u, zajedno sa primjerima za pokretanje na Google Cloud-u s GPU-om.

SEED RL zasnovan je na okviru TensorFlow 2.0 y radi pomoću kombinacije grafičkih procesnih jedinica i jedinice za obradu tenzora za centraliziranje zaključivanja modela. Zaključivanje se vrši centralno koristeći komponentu učenja koja trenira model.

Varijable i informacije o stanju ciljnog modela pohranjuju se lokalno a zapažanja o njima šalju se studentu u svakoj fazi procesa. SEED RL takođe koristi mrežnu biblioteku zasnovanu na univerzalnom RPC okviru otvorenog koda kako bi se smanjila kašnjenja.

u Googleovi istraživači rekli su da komponenta učenja - SEED RL može se proširiti na hiljade jezgri, dok se broj aktera koji se ponavljaju između mjerenja u okolini i izvođenja zaključka na modelu da bi se predvidjela sljedeća radnja može povećati na hiljade mašina.

Google je procijenio učinkovitost SEED RL-a uspoređujući ga s popularnim okruženjem za učenje Arcade, Google Research Football okruženjem i raznim okruženjima DeepMind Lab. Rezultati pokazuju da su uspjeli riješiti zadatak Google Research Football-a dok su trenirali model na 2,4 miliona sličica u sekundi koristeći 64 čipa procesorske jedinice za tenzor oblaka.

To je oko 80 puta brže od prethodnih okvira, rekao je Google.

"To se pretvara u značajno vremensko ubrzanje, jer su akceleratori po operaciji mnogo jeftiniji od CPU-a, a troškovi eksperimenata su drastično smanjeni." Vjerujemo da SEED RL i predstavljeni rezultati pokazuju da je učvršćivanje ponovno sustiglo ostatak dubokog učenja u smislu upotrebe akceleratora ", piše Lasse Espeholt, istraživački inženjer u Google Researchu.

Uz arhitekturu optimiziranu za upotrebu u modernim akceleratorima, prirodno je povećati veličinu modela u pokušaju povećanja efikasnosti podataka.

Google je rekao da je SEED RL kod otvoren i dostupan na Githubu, kao i primjere koji pokazuju kako postići da radi na Google Cloudu s jedinicama za obradu grafike.

Konačno, za one koji su zainteresirani za ovaj novi okvir, mogu otići na sljedeću vezu gdje mogu pronaći više informacija o njemu. Link je ovaj. 

Izvor: https://ai.googleblog.com/


Budite prvi koji komentarišete

Ostavite komentar

Vaša e-mail adresa neće biti objavljena. Obavezna polja su označena sa *

*

*

  1. Za podatke odgovoran: Miguel Ángel Gatón
  2. Svrha podataka: Kontrola neželjene pošte, upravljanje komentarima.
  3. Legitimacija: Vaš pristanak
  4. Komunikacija podataka: Podaci se neće dostavljati trećim stranama, osim po zakonskoj obavezi.
  5. Pohrana podataka: Baza podataka koju hostuje Occentus Networks (EU)
  6. Prava: U bilo kojem trenutku možete ograničiti, oporaviti i izbrisati svoje podatke.