FlexGen، محرك لتشغيل روبوتات الذكاء الاصطناعي على وحدة معالجة رسومات واحدة

FlexGen هو محرك تم إنشاؤه بغرض تقليل متطلبات موارد الاستدلال لنماذج اللغات الكبيرة إلى وحدة معالجة رسومات واحدة.

صدر الخبر مؤخرا أن مجموعة من الباحثين من جامعة ستانفورد ، وجامعة كاليفورنيا في بيركلي ، و ETH زيورخ ، وكلية الدراسات العليا للاقتصاد ، وجامعة كارنيجي ميلون ، وكذلك قامت Yandex و Meta بنشر الكود المصدري لـ un محرك لتشغيل نماذج اللغات الكبيرة في أنظمة ذات موارد محدودة.

مع الاسم الرمزي «FlexGen» ، هو مشروع يهدف إلى الحد بشكل كبير من متطلبات الموارد لعمليات الاستدلال LLM. تم نشره على GitHub ، يتطلب FlexGen فقط Python و PyTorch ولكن في الغالب يمكن استخدامه مع وحدة معالجة رسومات واحدة مثل NVIDIA Tesla T4 أو GeForce RTX 3090.

على سبيل المثال يوفر المحرك القدرة على إنشاء وظائف تذكرنا بـ ChatGPT و Copilot تشغيل طراز OPT-175B الذي تم اختباره مسبقًا والذي يغطي 175 مليار معلمة على جهاز كمبيوتر عادي مع بطاقة رسومات الألعاب NVIDIA RTX3090 المزودة بذاكرة فيديو 24 جيجابايت.

يذكر أن نماذج (LLM) تدعم تشغيل أدوات مثل ChatGPT و Copilot. هذه نماذج كبيرة تستخدم مليارات المعلمات ويتم تدريبها على كميات هائلة من البيانات.

تتطلب المتطلبات الحسابية والذاكرة العالية لمهام استدلال LLM عمومًا استخدام مسرعات عالية الجودة.

يسعدنا أن الجمهور متحمس حقًا بشأن FlexGen. ومع ذلك ، لا يزال عملنا قيد التحضير وغير جاهز بعد للنشر / الإعلان العام. من التعليقات المبكرة على هذا المشروع ، أدركنا أن الإصدارات المبكرة من README ووثقتنا لم تكن واضحة بشأن الغرض من FlexGen. يعد هذا جهدًا أوليًا لتقليل متطلبات الموارد الخاصة بـ LLM ، ولكنه يحتوي أيضًا على العديد من القيود ولا يُقصد به أن يحل محل حالات الاستخدام عند توفر موارد كافية.

استدلال LLM هو عملية يتم فيها استخدام نموذج اللغة لتوليد تنبؤات حول نص الإدخال: يتضمن استخدام نموذج لغة ، مثل نموذج توليدي مثل GPT (محول مسبق الصنع) ، لعمل تنبؤات حول ما هو مرجح. يحدث. يتم تقديمها كاستجابة بعد إدخال نص معين تم التقاطه.

حول FlexGen

تتضمن الحزمة نموذجًا نصيًا لإنشاء روبوتات. الذي يسمح للمستخدم قم بتنزيل أحد نماذج اللغات المتاحة للجمهور وابدأ الدردشة على الفور.

كقاعدة ، يُقترح استخدام نموذج لغة كبير نشره Facebook ، تم تدريبه على مجموعات BookCorpus (10 آلاف كتاب) ، CC-Stories ، Pile (OpenSubtitles ، Wikipedia ، DM Mathematics ، HackerNews ، إلخ) ، Pushshift.io (استنادًا إلى بيانات Reddit)) و CCNewsV2 (أرشيف الأخبار).

يغطي النموذج حوالي 180 مليار رمز (800 جيجابايت من البيانات). استغرق الأمر 33 يومًا من تشغيل المجموعة مع 992 NVIDIA A100 80 GB GPU لتدريب النموذج.

من خلال تشغيل OPT-175B على نظام به وحدة معالجة رسومات NVIDIA T4 واحدة (16 جيجابايت) ، أظهر محرك FlexGen أداءً أسرع بما يصل إلى 100 مرة من الحلول المقدمة سابقًا ، مما يجعل استخدام نموذج اللغة الكبير أكثر تكلفة ويسمح لهم بالتشغيل على أنظمة بدون مسرعات متخصصة.

في الوقت نفسه ، يمكن لـ FlexGen التوسع لموازنة العمليات الحسابية في وجود وحدات معالجة رسومات متعددة. لتقليل حجم النموذج ، يتم استخدام مخطط ضغط معلمة إضافي وآلية نموذج التخزين المؤقت.

حاليا، يدعم FlexGen نماذج لغة OPT فقط، ولكن في المستقبل ، يعد المطورون أيضًا بإضافة دعم لـ BLOOM (176 مليار معلمة ، يدعم 46 لغة و 13 لغة برمجة) ، CodeGen (يمكنه إنشاء كود بـ 22 لغة برمجة) ، و GLM.

أخيرًا ، تجدر الإشارة إلى أن الكود مكتوب بلغة Python ، ويستخدم إطار عمل PyTorch ويتم توزيعه بموجب ترخيص Apache 2.0.

إلى مهتم بمعرفة المزيد عنها، يمكنك التحقق من التفاصيل في الرابط التالي.

اترك تعليقك الغاء الرد

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها ب *

تعليق *

اسم*

البريد الإلكتروني*

أقبل شروط الخصوصية*

المسؤول عن البيانات: ميغيل أنخيل جاتون
الغرض من البيانات: التحكم في الرسائل الاقتحامية ، وإدارة التعليقات.
الشرعية: موافقتك
توصيل البيانات: لن يتم إرسال البيانات إلى أطراف ثالثة إلا بموجب التزام قانوني.
تخزين البيانات: قاعدة البيانات التي تستضيفها شركة Occentus Networks (الاتحاد الأوروبي)
الحقوق: يمكنك في أي وقت تقييد معلوماتك واستعادتها وحذفها.

أنا ترغب في الحصول على النشرة الإخبارية

DesdeLinux

FlexGen ، محرك لتشغيل روبوتات الذكاء الاصطناعي على وحدة معالجة رسومات واحدة

حول FlexGen

اترك تعليقك الغاء الرد