FlexGen เอ็นจิ้นสำหรับการรันบอท AI บน GPU ตัวเดียว

เฟล็กซ์เจน

FlexGen เป็นเครื่องมือที่สร้างขึ้นโดยมีวัตถุประสงค์เพื่อลดความต้องการทรัพยากรการอนุมานของโมเดลภาษาขนาดใหญ่ให้เหลือเพียง GPU เดียว

โดยมีข่าวออกมาเมื่อไม่นานนี้ว่า กลุ่มนักวิจัย จาก Stanford University, University of California at Berkeley, ETH Zurich, Graduate School of Economics, Carnegie Mellon University และ Yandex และ Meta ได้เผยแพร่ซอร์สโค้ดของ un เครื่องยนต์สำหรับการรันโมเดลภาษาขนาดใหญ่ ในระบบที่มีทรัพยากรจำกัด

พร้อมชื่อรหัส «FlexGen» เป็นโครงการที่มีจุดมุ่งหมายเพื่อลด ความต้องการ ทรัพยากรสำหรับการดำเนินการอนุมาน LLM โพสต์บน GitHub FlexGen ต้องการเฉพาะ Python และ PyTorch แต่ส่วนใหญ่สามารถใช้กับ GPU เดียวเช่น NVIDIA Tesla T4 หรือ GeForce RTX 3090

เช่น เครื่องยนต์ให้ความสามารถในการสร้างฟังก์ชันที่ชวนให้นึกถึง ChatGPT และ Copilot รันโมเดล OPT-175B ที่ได้รับการฝึกฝนไว้ล่วงหน้าซึ่งครอบคลุมพารามิเตอร์ 175 พันล้านพารามิเตอร์บนคอมพิวเตอร์ทั่วไปที่มีการ์ดกราฟิกสำหรับเล่นเกม NVIDIA RTX3090 พร้อมกับหน่วยความจำวิดีโอ 24 GB

มีการกล่าวถึงว่าโมเดล (LLM) รองรับการทำงานของเครื่องมือต่างๆ เช่น ChatGPT และ Copilot โมเดลเหล่านี้เป็นโมเดลขนาดใหญ่ที่ใช้พารามิเตอร์หลายพันล้านตัวและได้รับการฝึกอบรมเกี่ยวกับข้อมูลจำนวนมหาศาล

ข้อกำหนดด้านการคำนวณและหน่วยความจำสูงสำหรับงานอนุมาน LLM โดยทั่วไปจำเป็นต้องใช้ตัวเร่งความเร็วระดับไฮเอนด์

เราดีใจที่ประชาชนทั่วไปตื่นเต้นกับ FlexGen อย่างไรก็ตาม งานของเรายังอยู่ในขั้นเตรียมการและยังไม่พร้อมเผยแพร่/ประกาศสู่สาธารณะ จากข้อเสนอแนะในช่วงต้นเกี่ยวกับโครงการนี้ เราตระหนักว่า README เวอร์ชันก่อนหน้าและเอกสารของเราไม่ชัดเจนเกี่ยวกับวัตถุประสงค์ของ FlexGen นี่เป็นความพยายามเบื้องต้นในการลดความต้องการทรัพยากรของ LLM แต่ก็มีข้อจำกัดมากมายและไม่ได้มีวัตถุประสงค์เพื่อแทนที่กรณีการใช้งานเมื่อมีทรัพยากรเพียงพอ

การอนุมาน LLM เป็นกระบวนการที่ใช้โมเดลภาษาเพื่อสร้างการคาดคะเนเกี่ยวกับข้อความอินพุต ซึ่งเกี่ยวข้องกับการใช้โมเดลภาษา เช่น เจนเนอเรทีฟโมเดล เช่น GPT (Generative Pretrained Transformer) เพื่อคาดการณ์เกี่ยวกับสิ่งที่น่าจะเป็นไปได้มากที่สุด เกิดขึ้น. ให้เป็นการตอบกลับหลังจากป้อนข้อความที่ระบุ

เกี่ยวกับ FlexGen

แพ็คเกจประกอบด้วยสคริปต์ตัวอย่างสำหรับสร้างบอท ซึ่งทำให้ผู้ใช้ ดาวน์โหลดหนึ่งในโมเดลภาษาที่เผยแพร่ต่อสาธารณะ และเริ่มแชทได้ทันที

โดยพื้นฐานแล้ว ขอเสนอให้ใช้โมเดลภาษาขนาดใหญ่ที่เผยแพร่โดย Facebook, ฝึกฝนเกี่ยวกับคอลเลกชัน BookCorpus (หนังสือ 10 เล่ม), CC-Stories, Pile (OpenSubtitles, Wikipedia, DM Mathematics, HackerNews เป็นต้น), Pushshift.io (อ้างอิงจากข้อมูล Reddit)) และ CCNewsV2 (คลังข่าว)

โมเดลนี้ครอบคลุมประมาณ 180 พันล้านโทเค็น (ข้อมูล 800 GB) ใช้เวลา 33 วันในการรันคลัสเตอร์ด้วย 992 NVIDIA A100 80 GB GPUs เพื่อฝึกโมเดล

การใช้งาน OPT-175B บนระบบที่มี GPU NVIDIA T4 ตัวเดียว (16 GB) เอ็นจิ้น FlexGen แสดงให้เห็นถึงประสิทธิภาพการทำงานที่เร็วกว่าโซลูชันที่เสนอก่อนหน้านี้ถึง 100 เท่า ทำให้การใช้โมเดลภาษาขนาดใหญ่มีราคาไม่แพงมาก และช่วยให้รันบนระบบโดยไม่ต้องใช้ตัวเร่งพิเศษ

ในเวลาเดียวกัน FlexGen สามารถปรับขนาดการประมวลผลแบบคู่ขนานเมื่อมี GPU หลายตัว เพื่อลดขนาดของโมเดล จะใช้โครงร่างการบีบอัดพารามิเตอร์เพิ่มเติมและกลไกการแคชโมเดล

ปัจจุบัน FlexGen รองรับเฉพาะรุ่นภาษา OPTแต่ในอนาคต นักพัฒนายังสัญญาว่าจะเพิ่มการรองรับสำหรับ BLOOM (176 พันล้านพารามิเตอร์ รองรับ 46 ภาษา และ 13 ภาษาโปรแกรม), CodeGen (สามารถสร้างโค้ดใน 22 ภาษาโปรแกรม) และ GLM

ท้ายสุด เป็นสิ่งที่ควรค่าแก่การกล่าวถึงว่าโค้ดนี้เขียนด้วย Python ใช้เฟรมเวิร์ก PyTorch และเผยแพร่ภายใต้ลิขสิทธิ์ Apache 2.0

สำหรับ สนใจเรียนรู้เพิ่มเติมคุณสามารถตรวจสอบรายละเอียด ในลิงค์ต่อไปนี้.


แสดงความคิดเห็นของคุณ

อีเมล์ของคุณจะไม่ถูกเผยแพร่ ช่องที่ต้องการถูกทำเครื่องหมายด้วย *

*

*

  1. ผู้รับผิดชอบข้อมูล: Miguel ÁngelGatón
  2. วัตถุประสงค์ของข้อมูล: ควบคุมสแปมการจัดการความคิดเห็น
  3. ถูกต้องตามกฎหมาย: ความยินยอมของคุณ
  4. การสื่อสารข้อมูล: ข้อมูลจะไม่ถูกสื่อสารไปยังบุคคลที่สามยกเว้นตามข้อผูกพันทางกฎหมาย
  5. การจัดเก็บข้อมูล: ฐานข้อมูลที่โฮสต์โดย Occentus Networks (EU)
  6. สิทธิ์: คุณสามารถ จำกัด กู้คืนและลบข้อมูลของคุณได้ตลอดเวลา