SEED RL, Googlen avoimen lähdekoodin kehys tekoälymalleille

Los Googlen tutkijat julkaisivat uutiset uuden kehyksen kehittämisestä, joka laajentaa tekoälyn mallien koulutusta tuhansille koneille. Tulosta kutsutaan SEED RL (skaalautuva tehokas syvävahvistusoppiminen).

Tämä on lupaava kehitys koska minun pitäisi mahdollistaa tekoälyn algoritmien kouluttamisen miljoonilla kuvilla sekunnissa ja vähentää tämän koulutuksen kustannuksia 80%, Google sanoi tutkimusartikkelissa.

Tällainen supistaminen voisi auttaa tasapainottamaan startup-yritysten toimintaedellytyksiä. jotka eivät tähän mennessä ole kyenneet kilpailemaan tärkeimpien, kuten Googlen, kanssa tekoälyn alalla. Kehittyneiden koneoppimismallien harjoittamisen kustannukset pilvessä ovat yllättävän korkeita. Google muodostaa SEED RL -koodin avaamisen, joka on projekti, jolla pyritään optimoimaan vahvistusoppimisen hinta / suorituskyky -suhde.

Vahvistusoppiminen on hyvin spesifinen käyttötapainen lähestymistapa, jossa agentit oppivat ympäristöstään tutkimalla ja optimoimalla toimintansa saadakseen eniten hyötyä.

Julkaisussa »SEED RL: Skaalautuva ja tehokas Deep-RL nopeutetulla keskitetyllä johtopäätöksellä» esiteltiin RL-agentti, joka skaalautuu tuhansille koneille, mikä mahdollistaa koulutuksen miljoonilla kehyksillä sekunnissa ja parantaa merkittävästi laskennallista tehokkuutta. Tämä saavutetaan uudella arkkitehtuurilla, joka hyödyntää kiihdyttimiä (GPU tai TPU) mittakaavassa keskittämällä mallin päätelmät ja ottamalla käyttöön nopean viestintäkerroksen.

Osoitamme SEED RL -suorituskyvyn suosituilla RL-vertailuarvoilla, kuten Google Research Football, Arcade Learning Environment ja DeepMind Lab, ja osoitamme, että käyttämällä suurempia malleja tietojen tehokkuutta voidaan parantaa. Koodi on avattu Githubissa yhdessä esimerkkien kanssa, joita voidaan käyttää Google Cloudissa GPU: n kanssa.

SEED RL perustuu TensorFlow 2.0 -kehykseen y toimii grafiikkaprosessoriyksiköiden yhdistelmällä ja tensoriprosessoriyksiköt mallin päättelyn keskittämiseksi. Päätelmät tehdään keskitetysti mallia kouluttavalla oppimiskomponentilla.

Kohdemallin muuttujat ja tilatiedot tallennetaan paikallisesti ja havainnot niistä lähetetään opiskelijalle prosessin jokaisessa vaiheessa. SEED RL käyttää myös verkkokirjastoa, joka perustuu yleiseen avoimen lähdekoodin RPC-kehykseen viiveen minimoimiseksi.

Los Googlen tutkijat ovat sanoneet, että oppimisen komponentti kirjoittanut SEED RL voidaan laajentaa tuhansiin ytimiin, Toistuvien toimijoiden lukumäärä ympäristömittausten suorittamisen ja mallin päättelyn välillä seuraavan toiminnan ennustamiseksi voidaan suurentaa tuhansille koneille.

Google arvioi SEED RL: n tehokkuuden vertaamalla sitä suosittuun Arcade-oppimisympäristöön, Google Research Football -ympäristöön ja useisiin DeepMind Lab -ympäristöihin. Tulokset osoittavat, että he onnistuivat ratkaisemaan Google Research Football -tehtävän kouluttaessaan mallia 2,4 miljoonalla kehyksellä sekunnissa käyttämällä 64 sirua pilvensensorin prosessointiyksikköä.

Se on noin 80 kertaa nopeampi kuin edelliset kehykset, Google sanoi.

"Tämä tarkoittaa huomattavaa ajan kiihtyvyyttä, koska kiihdyttimet ovat paljon halvempia operaatiota kohden kuin suorittimet, kokeiden kustannukset vähenevät huomattavasti." Uskomme SEED RL: n ja esitetyt tulokset osoittavat, että vahvistava oppiminen on jälleen saavuttanut muun syvällisen oppimisen kiihdyttimen käytön suhteen ", kirjoittaa Lasse Espeholt, Google Researchin tutkimusinsinööri.

Arkkitehtuurilla, joka on optimoitu käytettäväksi nykyaikaisissa kiihdyttimissä, on luonnollista kasvattaa mallin kokoa tietojen tehokkuuden parantamiseksi.

Google sanoi, että SEED RL-koodi oli avoimen lähdekoodin ja saatavilla Githubissa, samoin kuin esimerkkejä siitä, miten se saadaan toimimaan Google Cloudissa grafiikkaprosessoriyksiköillä.

Lopuksi niille, jotka ovat kiinnostuneita uudesta kehyksestä, he voivat siirtyä seuraavaan linkkiin, josta he voivat löytää lisätietoja siitä. Linkki on tämä. 

lähde: https://ai.googleblog.com/


Ole ensimmäinen kommentti

Jätä kommentti

Sähköpostiosoitettasi ei julkaista. Pakolliset kentät on merkitty *

*

*

  1. Vastuussa tiedoista: Miguel Ángel Gatón
  2. Tietojen tarkoitus: Roskapostin hallinta, kommenttien hallinta.
  3. Laillistaminen: Suostumuksesi
  4. Tietojen välittäminen: Tietoja ei luovuteta kolmansille osapuolille muutoin kuin lain nojalla.
  5. Tietojen varastointi: Occentus Networks (EU) isännöi tietokantaa
  6. Oikeudet: Voit milloin tahansa rajoittaa, palauttaa ja poistaa tietojasi.