„SEED RL“ - atvirojo šaltinio „Google“ sistema dirbtinio intelekto modeliams

Los „Google“ tyrėjai išleido naujienos apie tai, kad ji sukūrė naują sistemą, kuria dirbtinio intelekto modeliai mokomi tūkstančiams mašinų. Rezultatas vadinamas SĖKLOS RL (keičiamo efektyvaus gilaus mokymosi mokymasis).

Tai perspektyvi plėtra nes turėčiau įgalinti dirbtinio intelekto algoritmus mokyti milijonus vaizdų per sekundę ir 80% sumažinti šių mokymų išlaidas, sakoma „Google“ tyrime.

Toks mažinimas galėtų padėti suvienodinti startuolių galimybes. kad iki šiol dirbtinio intelekto srityje negalėjo konkuruoti su tokiais pagrindiniais kaip „Google“. Sudėtingų mašininio mokymosi modelių mokymo debesyje kaina yra stebėtinai didelė. „Google“ įformina SEED RL kodo atidarymą - projektą, kurio tikslas - optimizuoti mokymosi sustiprinimo sąnaudų ir našumo santykį.

Mokymasis apie sustiprinimą yra labai specifinis naudojimo atvejis, kai agentai tyrinėdami sužino apie savo aplinką ir optimizuoja savo veiksmus, kad gautų kuo daugiau atlygio.

Kataloge »SEED RL: Scalable and Efficient Deep-RL with Accelerated Central Inference“ pristatėme RL agentą, kuris keičiamas tūkstančiais mašinų, leidžiantis treniruotis milijonais kadrų per sekundę ir žymiai pagerinant skaičiavimo efektyvumą. Tai pasiekiama naudojant naują architektūrą, kuri naudojasi greitintuvų (GPU arba TPU) pranašumais, centralizuodama modelio išvadas ir įvesdama greitą ryšio sluoksnį.

Mes demonstruojame SEED RL našumą pagal populiarius RL etalonus, tokius kaip „Google Research Football“, „Arcade Learning Environment“ ir „DeepMind Lab“, ir parodome, kad naudojant didesnius modelius galima padidinti duomenų efektyvumą. Kodas buvo atidarytas „Github“ kartu su pavyzdžiais, kuriuos reikia paleisti „Google Cloud“ su GPU.

„SEED RL“ remiasi „TensorFlow 2.0“ sistema y veikia naudojant grafikos apdorojimo vienetų derinį ir tenzoriaus apdorojimo įrenginiai, kad būtų galima centralizuoti modelio išvadas. Išvada daroma centralizuotai, naudojant mokomąjį komponentą, kuris moko modelį.

Tikslinio modelio kintamieji ir būsenos informacija saugomi vietoje ir pastebėjimai apie juos siunčiami studentui kiekviename proceso etape. „SEED RL“ taip pat naudoja tinklo biblioteką, pagrįstą universalia atviro kodo RPC sistema, kad sumažintų vėlavimą.

Los „Google“ tyrėjai teigė, kad mokymosi komponentas pateikė SEED RL galima išplėsti iki tūkstančių branduolių, Nors veikėjų, kuriuos reikia kartoti tarp matavimų aplinkoje ir modelio išvadų, kad būtų galima numatyti kitą veiksmą, skaičių galima padidinti iki tūkstančių mašinų.

„Google“ įvertino „SEED RL“ efektyvumą palygindama ją su populiariąja „Arcade“ mokymosi aplinka, „Google Research Football“ aplinka ir įvairiomis „DeepMind Lab“ aplinkomis. Rezultatai rodo, kad jiems pavyko išspręsti „Google Research Football“ užduotį mokant modelio 2,4 mln. kadrų per sekundę, naudojant 64 debesų tensoriaus apdorojimo bloko lustus.

Tai maždaug 80 kartų greičiau nei ankstesni kadrai, sakė „Google“.

"Tai reiškia didelį laiko pagreitį, nes greitintuvai yra daug pigesni už operaciją nei procesoriai, todėl eksperimentų kaina smarkiai sumažėja". Manome, kad SEED RL ir pateikti rezultatai rodo, kad mokymasis sustiprinti vėl pasivijo likusį gilųjį mokymąsi greitintuvo naudojimo prasme “, - rašo Lasse Espeholt,„ Google Research “tyrimų inžinierė.

Su architektūra, optimizuota naudoti šiuolaikiniuose greitintuvuose, natūralu padidinti modelio dydį, siekiant padidinti duomenų efektyvumą.

„Google“ teigė, kad SEED RL kodas buvo atviras šaltinis ir pasiekiamas „Github“, taip pat pavyzdžiai, rodantys, kaip tai veikia „Google Cloud“ su grafikos apdorojimo įrenginiais.

Galiausiai tiems, kurie domisi šia nauja sistema, jie gali rasti šią nuorodą ir rasti daugiau informacijos apie ją. Nuoroda yra tokia. 

Fuente: https://ai.googleblog.com/


Palikite komentarą

Jūsų elektroninio pašto adresas nebus skelbiamas. Privalomi laukai yra pažymėti *

*

*

  1. Atsakingas už duomenis: Miguel Ángel Gatón
  2. Duomenų paskirtis: kontroliuoti šlamštą, komentarų valdymą.
  3. Įteisinimas: jūsų sutikimas
  4. Duomenų perdavimas: Duomenys nebus perduoti trečiosioms šalims, išskyrus teisinius įsipareigojimus.
  5. Duomenų saugojimas: „Occentus Networks“ (ES) talpinama duomenų bazė
  6. Teisės: bet kuriuo metu galite apriboti, atkurti ir ištrinti savo informaciją.