SEED RL, Kerangka Sumber Terbuka Google kanggo Model Kecerdasan Buatan

ing Peneliti Google ngeculake warta babagan pangembangan kerangka kerja anyar sing nyedhiyakake pelatihan model intelijen buatan nganti ewonan mesin. Asile diarani Wiji RL (sinau penguatan jero efisien sing bisa diukur).

Iki pembangunan janjeni amarga aku kudune ngaktifake algoritma intelijen buatan dilatih kanthi jutaan gambar per detik lan nyuda biaya latihan iki 80%, ujare Google ing makalah riset.

Pangurangan ukuran iki bisa ngatasi level lapangan kanggo startup. sing nganti saiki durung bisa bersaing karo sing utama kayata Google ing bidang AI. Biaya latihan model pembelajaran mesin canggih ing cloud iku regane larang banget. Google nggawe formal pembukaan kode RED SEED, sawijining proyek sing diangkah kanggo ngoptimalake rasio biaya / kinerja pembelajaran penguatan.

Sinau penguatan minangka pendekatan kasus panggunaan khusus sing agen sinau babagan lingkungane liwat eksplorasi lan ngoptimalake tumindak supaya entuk hadiah sing paling gedhe.

Ing »SEED RL: Scalable lan Efisien Deep-RL kanthi Inferensi Pusat Akselerasi", kita ngenalake agen RL sing timbangan nganti ewonan mesin, saéngga bisa latihan ing jutaan pigura per detik lan nambah efisiensi komputasi kanthi signifikan. Iki bisa diraih kanthi arsitektur novel sing njupuk kauntungan saka akselerator (GPU utawa TPU) kanthi skala kanthi sentralisasi inferensi model lan ngenalake lapisan komunikasi sing cepet.

Kita nduduhake kinerja SEED RL ing benchmark RL populer kayata Google Research Football, Arcade Learning Environment, lan DeepMind Lab, lan nuduhake manawa nggunakake model sing luwih gedhe, efisiensi data bisa ditambah. Kode kasebut wis dibukak ing Github bebarengan karo conto kanggo mbukak ing Google Cloud karo GPU.

SEED RL adhedhasar kerangka kerja TensorFlow 2.0 y dianggo nggunakake kombinasi unit pemroses grafis lan unit pemrosesan tegangan kanggo sentralisasi inferensi model. Inferensi ditindakake kanthi pusat nggunakake komponen pembelajaran sing nglatih model kasebut.

Variabel lan informasi negara model target disimpen ing lokal lan pengamatan marang dheweke dikirim menyang siswa ing saben tataran proses. SEED RL uga nggunakake perpustakaan jaringan adhedhasar framework RPC universal open source kanggo nyuda latensi.

ing Peneliti Google ujar manawa komponen pembelajaran kasebut dening SEED RL bisa ditambahi nganti ewonan intine, nalika jumlah aktor sing bakal dibaleni antarane ngukur lingkungan lan nglakokake inferensi model kanggo prédhiksi tumindak sabanjure, bisa ditambah nganti ewonan mesin.

Google ngevaluasi efektivitas SEED RL kanthi mbandhingake karo lingkungan pembelajaran Arcade sing populer, lingkungan Bal-balan Penelitian Google, lan macem-macem lingkungan DeepMind Lab. Asil nuduhake manawa dheweke bisa ngatasi tugas Google Research Football nalika nglatih model ing 2,4 yuta frame per detik nggunakake 64 chip unit pemrosesan awan.

Udakara 80 kali luwih cepet tinimbang bingkai sadurunge, ujare Google.

"Iki tegese dadi akselerasi wektu sing signifikan, amarga akselerator luwih murah saben operasi tinimbang CPU, biaya eksperimen dikurangi sacara drastis." Kita yakin manawa SEED RL lan asil sing ditampilake nuduhake manawa pembelajaran penguatan wis maneh sinau babagan panggunaan akselerator, "tulis Lasse Espeholt, insinyur riset ing Google Research.

Kanthi arsitektur sing dioptimalake kanggo digunakake ing akselerator modern, lumayan kanggo nambah ukuran model kanggo upaya nambah efisiensi data.

Google ujar manawa kode SEED RL mbukak sumber lan kasedhiya ing Github, uga conto sing nuduhake cara supaya bisa digunakake ing Google Cloud kanthi unit pangolah grafis.

Pungkasan, kanggo wong-wong sing kasengsem karo kerangka kerja anyar iki, dheweke bisa mbukak link ing ngisor iki supaya bisa nemokake informasi luwih lengkap babagan iki. Linke yaiku. 

sumber: https://ai.googleblog.com/


Konten artikel kasebut sesuai karo prinsip kita yaiku etika editorial. Kanggo nglaporake klik kesalahan Kene.

Dadi pisanan komentar

Ninggalake komentar sampeyan

Panjenengan alamat email ora bisa diterbitake. Perangkat kothak ditandhani karo *

*

*

  1. Tanggung jawab data: Miguel Ángel Gatón
  2. Tujuan data: Kontrol SPAM, manajemen komentar.
  3. Legitimasi: idin sampeyan
  4. Komunikasi data: Data kasebut ora bakal dikomunikasikake karo pihak katelu kajaba kanthi kewajiban ukum.
  5. Panyimpenan data: Database sing dianakake dening Occentus Networks (EU)
  6. Hak: Kapan wae sampeyan bisa matesi, mulihake lan mbusak informasi sampeyan.