SEED RL, Kerangka Kerja Sumber Terbuka Google untuk Model Kecerdasan Buatan

Los Peneliti Google dirilis berita tentang pengembangan kerangka kerja baru yang memperluas pelatihan model kecerdasan buatan ke ribuan mesin. Hasilnya disebut BENIH RL (Pembelajaran penguatan mendalam yang efisien dan dapat diskalakan).

Ini adalah perkembangan yang menjanjikan karena saya harus memungkinkan algoritme kecerdasan buatan dilatih pada jutaan gambar per detik dan mengurangi biaya pelatihan ini hingga 80%, kata Google dalam makalah penelitian.

Perampingan semacam ini dapat membantu menyamakan kedudukan bagi para pemula. yang sampai saat ini belum mampu bersaing dengan yang utama seperti Google di bidang AI. Biaya pelatihan model pembelajaran mesin yang canggih di cloud sangat tinggi. Google meresmikan pembukaan kode SEED RL, sebuah proyek yang bertujuan untuk mengoptimalkan rasio biaya / kinerja pembelajaran penguatan.

Pembelajaran penguatan adalah pendekatan kasus penggunaan yang sangat spesifik di mana agen mempelajari lingkungan mereka melalui eksplorasi dan mengoptimalkan tindakan mereka untuk mendapatkan penghargaan yang paling banyak.

Dalam »SEED RL: Deep-RL yang Skalabel dan Efisien dengan Accelerated Central Inference", kami memperkenalkan agen RL yang menskalakan ribuan mesin, memungkinkan pelatihan pada jutaan frame per detik dan secara signifikan meningkatkan efisiensi komputasi. Ini dicapai dengan arsitektur baru yang memanfaatkan akselerator (GPU atau TPU) dalam skala besar dengan memusatkan inferensi model dan memperkenalkan lapisan komunikasi cepat.

Kami mendemonstrasikan performa SEED RL pada tolok ukur RL populer seperti Google Research Football, Arcade Learning Environment, dan Lab DeepMind, dan menunjukkan bahwa dengan menggunakan model yang lebih besar, efisiensi data dapat ditingkatkan. Kode telah dibuka di Github bersama dengan contoh untuk dijalankan di Google Cloud dengan GPU.

SEED RL didasarkan pada framework TensorFlow 2.0 y bekerja menggunakan kombinasi unit pemrosesan grafik dan unit pemrosesan tensor untuk memusatkan inferensi model. Inferensi dilakukan secara terpusat menggunakan komponen pembelajaran yang melatih model.

Variabel dan informasi status dari model target disimpan secara lokal dan pengamatan pada mereka dikirim ke siswa di setiap tahap proses. SEED RL juga menggunakan pustaka jaringan berdasarkan kerangka kerja RPC sumber terbuka universal untuk meminimalkan latensi.

Los Peneliti Google telah mengatakan bahwa komponen pembelajaran oleh SEED RL dapat diperluas menjadi ribuan inti, sementara jumlah aktor yang akan diulang antara melakukan pengukuran di lingkungan dan melakukan inferensi pada model untuk memprediksi tindakan selanjutnya, dapat ditingkatkan hingga ribuan mesin.

Google mengevaluasi keefektifan SEED RL dengan membandingkannya dengan lingkungan pembelajaran Arcade yang populer, lingkungan Google Research Football, dan berbagai lingkungan DeepMind Lab. Hasilnya menunjukkan bahwa mereka berhasil menyelesaikan tugas Google Research Football sambil melatih model hingga 2,4 juta. Frame per kedua menggunakan 64 chip dari unit pemrosesan tensor awan.

Ini sekitar 80 kali lebih cepat dari frame sebelumnya, kata Google.

"Ini berarti akselerasi waktu yang signifikan, karena akselerator jauh lebih murah per operasi daripada CPU, biaya eksperimen berkurang drastis." Kami yakin bahwa SEED RL dan hasil yang disajikan menunjukkan bahwa pembelajaran penguatan sekali lagi mengikuti pembelajaran mendalam lainnya dalam hal penggunaan akselerator, "tulis Lasse Espeholt, insinyur penelitian di Google Research.

Dengan arsitektur yang dioptimalkan untuk digunakan dalam akselerator modern, memperbesar ukuran model adalah wajar untuk meningkatkan efisiensi data.

Google mengatakan bahwa kode SEED RL adalah open source dan tersedia di Github, serta contoh yang menunjukkan cara membuatnya berfungsi di Google Cloud dengan unit pemrosesan grafis.

Terakhir, bagi mereka yang tertarik dengan framework baru ini, mereka dapat membuka tautan berikut di mana mereka dapat menemukan informasi lebih lanjut tentangnya. Tautannya adalah ini. 

sumber: https://ai.googleblog.com/


tinggalkan Komentar Anda

Alamat email Anda tidak akan dipublikasikan. Bidang yang harus diisi ditandai dengan *

*

*

  1. Penanggung jawab data: Miguel Ángel Gatón
  2. Tujuan data: Mengontrol SPAM, manajemen komentar.
  3. Legitimasi: Persetujuan Anda
  4. Komunikasi data: Data tidak akan dikomunikasikan kepada pihak ketiga kecuali dengan kewajiban hukum.
  5. Penyimpanan data: Basis data dihosting oleh Occentus Networks (UE)
  6. Hak: Anda dapat membatasi, memulihkan, dan menghapus informasi Anda kapan saja.