SEED RL ، یک چارچوب منبع باز Google برای مدل های هوش مصنوعی

ل محققان گوگل منتشر کردند اخبار مربوط به توسعه چارچوب جدیدی که آموزش مدلهای هوش مصنوعی را به هزاران ماشین گسترش می دهد. نتیجه نامیده می شود SEED RL (یادگیری تقویت عمیق کارآمد مقیاس پذیر).

این است یک پیشرفت امیدوار کننده چون باید الگوریتم های هوش مصنوعی را قادر می سازد تا میلیون ها تصویر در ثانیه آموزش ببینند گوگل در یک مقاله تحقیقاتی گفت: و هزینه های این آموزش را 80 درصد کاهش می دهد.

این نوع کوچک سازی می تواند به سطح بازی های نوپا کمک کند. که تاکنون قادر به رقابت با اصلی ترین آنها مانند گوگل در زمینه هوش مصنوعی نبوده اند. هزینه آموزش مدل های پیچیده یادگیری ماشین در ابر به طرز شگفت انگیزی زیاد است. گوگل افتتاح کد SEED RL را رسمی می کند ، پروژه ای با هدف بهینه سازی نسبت هزینه / عملکرد یادگیری تقویت.

یادگیری تقویت یک رویکرد کاربردی بسیار خاص است که در آن عوامل از طریق کاوش درباره محیط خود می آموزند و اقدامات خود را برای بدست آوردن بیشترین پاداش بهینه می کنند.

در »SEED RL: مقیاس پذیر و کارآمد Deep-RL با استنتاج مرکزی تسریع شده» ، ما یک عامل RL را معرفی کردیم که مقیاس آن در هزاران ماشین اندازه گیری می شود و امکان آموزش با میلیون ها فریم در ثانیه و بهبود قابل توجه کارایی محاسبات را فراهم می کند. این با یک معماری جدید بدست می آید که با متمرکز کردن استنتاج مدل و معرفی یک لایه ارتباطی سریع ، از شتاب دهنده ها (GPU یا TPU) در مقیاس بهره می برد.

ما عملکرد SEED RL را بر روی معیارهای محبوب RL مانند Google Research Football ، Arcade Learning Environment و DeepMind Lab نشان می دهیم و نشان می دهیم که با استفاده از مدل های بزرگتر می توان بازده داده را افزایش داد. کد در Github به همراه نمونه هایی برای اجرا در Google Cloud با GPU باز شده است.

SEED RL بر اساس چارچوب TensorFlow 2.0 ساخته شده است y با استفاده از ترکیبی از واحدهای پردازش گرافیک کار می کند و واحدهای پردازش تنسور برای متمرکز کردن استنتاج مدل. استنباط به طور متمرکز با استفاده از یک م componentلفه یادگیری انجام می شود که مدل را آموزش می دهد.

متغیرها و اطلاعات حالت مدل هدف به صورت محلی ذخیره می شوند و مشاهدات مربوط به آنها در هر مرحله از مراحل برای دانش آموز ارسال می شود. SEED RL همچنین برای به حداقل رساندن تأخیر از کتابخانه شبکه ای مبتنی بر چارچوب جهانی منبع باز RPC استفاده می کند.

ل محققان گوگل گفته اند که م learningلفه یادگیری است توسط SEED RL می تواند به هزاران هسته گسترش یابد ، در حالی که تعداد بازیگرانی که باید بین اندازه گیری در محیط و انجام استنباط بر روی مدل برای پیش بینی عملکرد بعدی تکرار شوند ، می تواند تا هزاران ماشین کوچک شود.

Google با مقایسه آن با محیط یادگیری محبوب Arcade ، محیط Google Research Football و محیط های مختلف آزمایشگاه DeepMind ، اثربخشی SEED RL را ارزیابی کرد. نتایج نشان می دهد که آنها موفق به حل یک کار تحقیقاتی فوتبال Google شدند در حالی که این مدل را 2,4 میلیون آموزش دادند. فریم در ثانیه با استفاده از 64 تراشه واحد پردازش تانسور ابر.

گوگل گفت حدود 80 برابر سریعتر از فریم های قبلی است.

"این به شتاب قابل توجهی در زمان تبدیل می شود ، زیرا شتاب دهنده ها بسیار ارزان تر از پردازنده ها هستند ، هزینه آزمایشات به شدت کاهش می یابد." ما بر این باوریم که SEED RL و نتایج ارائه شده نشان می دهد که یادگیری تقویت مجدداً از نظر استفاده از شتاب دهنده با بقیه یادگیری عمیق مقابله کرده است. "

با معماری بهینه شده برای استفاده در شتاب دهنده های مدرن ، طبیعی است که در تلاش برای افزایش کارایی داده ها ، اندازه مدل را افزایش دهیم.

گوگل گفت که کد SEED RL منبع باز بوده و در Github موجود است ، و همچنین نمونه هایی نشان می دهد که چگونه می توان با واحدهای پردازش گرافیک آن را در Google Cloud کار کرد.

سرانجام ، برای کسانی که به این چارچوب جدید علاقه مند هستند ، می توانند به لینک زیر مراجعه کنند تا اطلاعات بیشتری در مورد آن پیدا کنند. پیوند این است. 

Fuente: https://ai.googleblog.com/


محتوای مقاله به اصول ما پیوست اخلاق تحریریه. برای گزارش یک خطا کلیک کنید اینجا.

اولین کسی باشید که نظر

نظر خود را بگذارید

نشانی ایمیل شما منتشر نخواهد شد. بخشهای موردنیاز علامتگذاری شدهاند با *

*

*

  1. مسئول داده ها: میگل آنخل گاتون
  2. هدف از داده ها: کنترل هرزنامه ، مدیریت نظرات.
  3. مشروعیت: رضایت شما
  4. ارتباط داده ها: داده ها به اشخاص ثالث منتقل نمی شوند مگر با تعهد قانونی.
  5. ذخیره سازی داده ها: پایگاه داده به میزبانی شبکه های Occentus (EU)
  6. حقوق: در هر زمان می توانید اطلاعات خود را محدود ، بازیابی و حذف کنید.