FlexGen, מנוע להפעלת בוטים של AI על GPU יחיד

FlexGen הוא מנוע שנבנה במטרה לצמצם את דרישות משאבי ההסקה של דגמי שפות גדולים ל-GPU יחיד.

הידיעה פורסמה לאחרונה קבוצת חוקרים מאוניברסיטת סטנפורד, אוניברסיטת קליפורניה בברקלי, ETH ציריך, בית הספר לתואר שני לכלכלה, אוניברסיטת קרנגי מלון, וכן Yandex ומטה, פרסמו את קוד המקור של un מנוע להפעלת דגמי שפות גדולים במערכות עם משאבים מוגבלים.

עם שם קוד «FlexGen», הוא פרויקט שמטרתו להפחית באופן משמעותי את דרישות משאבים עבור פעולות מסקנות LLM. פורסם ב-GitHub, FlexGen דורש רק Python ו- PyTorch, אך ניתן להשתמש בעיקר עם GPU יחיד כמו NVIDIA Tesla T4 או GeForce RTX 3090.

לדוגמה: המנוע מספק את היכולת ליצור פונקציונליות המזכירה את ChatGPT ו-Copilot הפעלת דגם OPT-175B מאומן מראש המכסה 175 מיליארד פרמטרים במחשב רגיל עם כרטיס מסך NVIDIA RTX3090 למשחקים המצויד בזיכרון וידאו של 24 גיגה-בייט.

מוזכר שמודלים (LLM) תומכים בפעולת כלים כמו ChatGPT ו-Copilot. מדובר במודלים גדולים שמשתמשים במיליארדי פרמטרים ומאומנים על כמויות אדירות של נתונים.

הדרישות החישוביות והזיכרון הגבוהות עבור משימות מסקנות LLM מצריכות בדרך כלל שימוש במאיצים מתקדמים.

אנו שמחים שהציבור באמת נרגש מ-FlexGen. עם זאת, העבודה שלנו עדיין בהכנה ועדיין לא מוכנה לפרסום/הכרזה פומבית. ממשוב מוקדם על הפרויקט הזה, הבנו שגרסאות מוקדמות של README זה ושל המסמך שלנו לא היו ברורות לגבי מטרת FlexGen. זהו מאמץ ראשוני לצמצם את דרישות המשאבים של LLMs, אך יש לו גם מגבלות רבות ואינו מיועד להחליף מקרי שימוש כאשר יש מספיק משאבים זמינים.

מסקנות LLM היא תהליך שבו נעשה שימוש במודל שפה ליצירת תחזיות לגבי טקסט הקלט: הוא כרוך בשימוש במודל שפה, כגון מודל מחולל כגון GPT (Generative Pretrained Transformer), כדי ליצור תחזיות לגבי מה שסביר ביותר לקרות. להינתן כתגובה לאחר קלט ספציפי שנקלט בטקסט.

על FlexGen

החבילה כוללת סקריפט לדוגמה ליצירת בוטים. מה שמאפשר למשתמש הורד את אחד מדגמי השפה הזמינים לציבור ולהתחיל לשוחח מיד.

כבסיס, מוצע להשתמש במודל שפה גדול שמתפרסם על ידי פייסבוק, מאומן על אוספי BookCorpus (10 אלף ספרים), CC-Stories, Pile (OpenSubtitles, ויקיפדיה, DM Mathematics, HackerNews וכו'), Pushshift.io (מבוסס על נתוני Reddit)) ו-CCNewsV2 (ארכיון חדשות).

הדגם מכסה כ-180 מיליארד אסימונים (800 GB של נתונים). נדרשו 33 ימים של הפעלת האשכול עם 992 NVIDIA A100 80 GB GPUs כדי לאמן את הדגם.

הפעלת OPT-175B על מערכת עם NVIDIA T4 GPU יחיד (16 ג'יגה-בייט), מנוע ה-FlexGen הפגין ביצועים מהירים עד פי 100 מהפתרונות שהוצעו בעבר, מה שהפך את השימוש בדגמי שפה גדולים למשתלם יותר ומאפשר להם לפעול על מערכות ללא מאיצים מיוחדים.

במקביל, FlexGen יכול לשנות קנה מידה כדי לבצע חישובים מקבילים בנוכחות מספר GPUs. כדי להקטין את גודל המודל, נעשה שימוש בסכימת דחיסת פרמטרים נוספת ובמנגנון שמירה במטמון של מודל.

נכון לעכשיו, FlexGen תומך רק בדגמי שפת OPT, אבל בעתיד, המפתחים גם מבטיחים להוסיף תמיכה ב-BLOOM (176 מיליארד פרמטרים, תומך ב-46 שפות ו-13 שפות תכנות), CodeGen (יכול ליצור קוד ב-22 שפות תכנות) ו-GLM.

לבסוף כדאי להזכיר שהקוד כתוב ב-Python, משתמש במסגרת PyTorch ומופץ תחת רישיון Apache 2.0.

עבור מעוניין ללמוד עוד על זה, אתה יכול לבדוק את הפרטים בקישור הבא.

השאירו את התגובה שלכם בטל תשובה

כתובת הדוא"ל שלך לא תפורסם. שדות חובה מסומנים *

תגובה *

שם*

דואר אלקטרוני*

אני מקבל את תנאי פרטיות*

אחראי לנתונים: מיגל אנחל גטון
מטרת הנתונים: בקרת ספאם, ניהול תגובות.
לגיטימציה: הסכמתך
מסירת הנתונים: הנתונים לא יועברו לצדדים שלישיים אלא בהתחייבות חוקית.
אחסון נתונים: מסד נתונים המתארח על ידי Occentus Networks (EU)
זכויות: בכל עת תוכל להגביל, לשחזר ולמחוק את המידע שלך.

אני רוצה לקבל את העלון