SEED RL เฟรมเวิร์กโอเพนซอร์สจาก Google สำหรับโมเดลปัญญาประดิษฐ์

ลอส นักวิจัยของ Google เปิดตัว ข่าวเกี่ยวกับการพัฒนากรอบการทำงานใหม่ที่ขยายการฝึกอบรมโมเดลปัญญาประดิษฐ์ไปยังเครื่องจักรหลายพันเครื่อง ผลลัพธ์ที่เรียกว่า เมล็ดพันธุ์ RL (การเรียนรู้การเสริมแรงเชิงลึกที่มีประสิทธิภาพที่ปรับขนาดได้)

นี้คือ การพัฒนาที่มีแนวโน้ม เพราะฉันควร ช่วยให้อัลกอริทึมปัญญาประดิษฐ์ได้รับการฝึกฝนกับภาพหลายล้านภาพต่อวินาที และลดค่าใช้จ่ายในการฝึกอบรมนี้ได้ 80% Google กล่าวในเอกสารวิจัย

การลดขนาดแบบนี้สามารถช่วยยกระดับสนามแข่งขันสำหรับสตาร์ทอัพได้ จนถึงขณะนี้ยังไม่สามารถแข่งขันกับตัวหลักอย่าง Google ในด้าน AI ได้ ค่าใช้จ่ายในการฝึกอบรมโมเดลแมชชีนเลิร์นนิงที่ซับซ้อนในระบบคลาวด์นั้นสูงมากอย่างน่าตกใจ Google เปิดตัวโค้ด SEED RL อย่างเป็นทางการซึ่งเป็นโครงการที่มุ่งเพิ่มประสิทธิภาพอัตราส่วนต้นทุน / ประสิทธิภาพของการเรียนรู้แบบเสริมแรง

การเรียนรู้แบบเสริมกำลังเป็นแนวทางการใช้งานที่เฉพาะเจาะจงมากซึ่งตัวแทนจะเรียนรู้เกี่ยวกับสภาพแวดล้อมของพวกเขาผ่านการสำรวจและปรับการกระทำของตนให้เหมาะสมเพื่อให้ได้รับรางวัลมากที่สุด

ใน» SEED RL: Deep-RL ที่ปรับขนาดได้และมีประสิทธิภาพพร้อมการอนุมานกลางแบบเร่ง "เราได้เปิดตัวเอเจนต์ RL ที่ปรับขนาดให้เข้ากับเครื่องจักรหลายพันเครื่องทำให้สามารถฝึกได้หลายล้านเฟรมต่อวินาทีและปรับปรุงประสิทธิภาพการคำนวณอย่างมาก สิ่งนี้ทำได้ด้วยสถาปัตยกรรมใหม่ที่ใช้ประโยชน์จากตัวเร่งความเร็ว (GPU หรือ TPU) ตามขนาดโดยรวมการอนุมานแบบจำลองและแนะนำเลเยอร์การสื่อสารที่รวดเร็ว

เราแสดงให้เห็นถึงประสิทธิภาพของ SEED RL บนเกณฑ์มาตรฐาน RL ที่เป็นที่นิยมเช่น Google Research Football, Arcade Learning Environment และ DeepMind Lab และแสดงให้เห็นว่าการใช้โมเดลที่ใหญ่ขึ้นประสิทธิภาพของข้อมูลจะเพิ่มขึ้นได้ โค้ดถูกเปิดบน Github พร้อมกับตัวอย่างการทำงานบน Google Cloud ด้วย GPU

SEED RL ยึดตามกรอบงาน TensorFlow 2.0 y ทำงานโดยใช้หน่วยประมวลผลกราฟิกร่วมกัน และหน่วยประมวลผลเทนเซอร์เพื่อรวมศูนย์การอนุมานแบบจำลอง การอนุมานทำได้จากส่วนกลางโดยใช้องค์ประกอบการเรียนรู้ที่ฝึกโมเดล

ตัวแปรและข้อมูลสถานะของโมเดลเป้าหมายจะถูกเก็บไว้ในเครื่อง และการสังเกตจะถูกส่งไปยังนักเรียนในแต่ละขั้นตอนของกระบวนการ SEED RL ยังใช้ไลบรารีเครือข่ายตามเฟรมเวิร์ก RPC โอเพ่นซอร์สสากลเพื่อลดเวลาแฝง

ลอส นักวิจัยของ Google ได้กล่าวว่าองค์ประกอบการเรียนรู้ โดย SEED RL สามารถขยายได้ถึงหลายพันคอร์ ในขณะที่จำนวนตัวแสดงที่ต้องทำซ้ำระหว่างการวัดในสภาพแวดล้อมและการใช้การอนุมานบนแบบจำลองเพื่อทำนายการกระทำถัดไปสามารถปรับขนาดได้มากถึงหลายพันเครื่อง

Google ประเมินประสิทธิภาพของ SEED RL โดยเปรียบเทียบกับสภาพแวดล้อมการเรียนรู้ Arcade ยอดนิยมสภาพแวดล้อม Google Research Football และสภาพแวดล้อม DeepMind Lab ต่างๆผลการศึกษาแสดงให้เห็นว่าพวกเขาสามารถแก้ปัญหางาน Google Research Football ได้ในขณะที่ฝึกโมเดลที่ 2,4 ล้านเฟรมต่อวินาที โดยใช้ 64 ชิปของหน่วยประมวลผลเทนเซอร์บนคลาวด์

Google กล่าวว่าเร็วกว่าเฟรมก่อนหน้าประมาณ 80 เท่า

"สิ่งนี้แปลเป็นการเร่งเวลาอย่างมีนัยสำคัญเนื่องจากตัวเร่งความเร็วต่อการทำงานถูกกว่าซีพียูมากค่าใช้จ่ายในการทดลองจึงลดลงอย่างมาก" เราเชื่อว่า SEED RL และผลลัพธ์ที่นำเสนอแสดงให้เห็นว่าการเรียนรู้แบบเสริมกำลังได้เรียนรู้เชิงลึกที่เหลืออีกครั้งในแง่ของการใช้ตัวเร่งความเร็ว "Lasse Espeholt วิศวกรวิจัยของ Google Research เขียน

ด้วยสถาปัตยกรรมที่ปรับให้เหมาะกับการใช้งานในตัวเร่งความเร็วสมัยใหม่จึงเป็นเรื่องธรรมดาที่จะเพิ่มขนาดของแบบจำลองเพื่อพยายามเพิ่มประสิทธิภาพของข้อมูล

Google กล่าวว่าโค้ด SEED RL เป็นโอเพ่นซอร์สและมีอยู่ใน Github ตลอดจนตัวอย่างที่แสดงวิธีทำให้ Google Cloud ทำงานร่วมกับหน่วยประมวลผลกราฟิก

สุดท้ายสำหรับผู้ที่สนใจกรอบงานใหม่นี้พวกเขาสามารถไปที่ลิงค์ต่อไปนี้ซึ่งพวกเขาสามารถค้นหาข้อมูลเพิ่มเติมเกี่ยวกับมันได้ ลิงค์คือนี่ 

Fuente: https://ai.googleblog.com/


แสดงความคิดเห็นของคุณ

อีเมล์ของคุณจะไม่ถูกเผยแพร่ ช่องที่ต้องการถูกทำเครื่องหมายด้วย *

*

*

  1. ผู้รับผิดชอบข้อมูล: Miguel ÁngelGatón
  2. วัตถุประสงค์ของข้อมูล: ควบคุมสแปมการจัดการความคิดเห็น
  3. ถูกต้องตามกฎหมาย: ความยินยอมของคุณ
  4. การสื่อสารข้อมูล: ข้อมูลจะไม่ถูกสื่อสารไปยังบุคคลที่สามยกเว้นตามข้อผูกพันทางกฎหมาย
  5. การจัดเก็บข้อมูล: ฐานข้อมูลที่โฮสต์โดย Occentus Networks (EU)
  6. สิทธิ์: คุณสามารถ จำกัด กู้คืนและลบข้อมูลของคุณได้ตลอดเวลา