FlexGen, একটি একক GPU-তে AI বট চালানোর জন্য একটি ইঞ্জিন

ফ্লেক্সজেন

ফ্লেক্সজেন হল একটি ইঞ্জিন যা বড় ভাষার মডেলগুলির অনুমান সংস্থান প্রয়োজনীয়তাগুলিকে একক GPU-তে হ্রাস করার উদ্দেশ্যে তৈরি করা হয়েছে৷

সেই খবর সম্প্রতি প্রকাশিত হয়েছিল গবেষকদের একটি দল স্ট্যানফোর্ড ইউনিভার্সিটি, ইউনিভার্সিটি অফ ক্যালিফোর্নিয়া, বার্কলে, ইটিএইচ জুরিখ, গ্র্যাজুয়েট স্কুল অফ ইকোনমিক্স, কার্নেগি মেলন ইউনিভার্সিটি, পাশাপাশি ইয়ানডেক্স এবং মেটা, এর সোর্স কোড প্রকাশ করেছে un বড় ভাষার মডেল চালানোর জন্য ইঞ্জিন সীমিত সম্পদ সহ সিস্টেমে।

কোড নাম সহ "ফ্লেক্সজেন", একটি প্রকল্প যার লক্ষ্য উল্লেখযোগ্যভাবে হ্রাস করা প্রয়োজনীয়তা এলএলএম ইনফারেন্স অপারেশনের জন্য সম্পদ। GitHub-এ পোস্ট করা হয়েছে, FlexGen-এর জন্য শুধুমাত্র Python এবং PyTorch প্রয়োজন কিন্তু বেশিরভাগই NVIDIA Tesla T4 বা GeForce RTX 3090 এর মতো একক GPU-এর সাথে ব্যবহার করা যেতে পারে।

উদাহরণস্বরূপ, ইঞ্জিনটি চ্যাটজিপিটি এবং কপিলটের মতো কার্যকারিতা তৈরি করার ক্ষমতা প্রদান করে 175 GB ভিডিও মেমরি দিয়ে সজ্জিত একটি NVIDIA RTX175 গেমিং গ্রাফিক্স কার্ড সহ একটি নিয়মিত কম্পিউটারে 3090 বিলিয়ন প্যারামিটার কভার করে একটি পূর্বপ্রশিক্ষিত OPT-24B মডেল চালানো।

এটি উল্লেখ করা হয়েছে যে (LLM) মডেলগুলি ChatGPT এবং Copilot এর মতো সরঞ্জামগুলির পরিচালনাকে সমর্থন করে। এগুলি হল বড় মডেল যেগুলি কোটি কোটি প্যারামিটার ব্যবহার করে এবং বিপুল পরিমাণ ডেটার উপর প্রশিক্ষিত।

এলএলএম ইনফরেন্স টাস্কের জন্য উচ্চ কম্পিউটেশনাল এবং মেমরির প্রয়োজনীয়তার জন্য সাধারণত হাই-এন্ড এক্সিলারেটর ব্যবহার করা প্রয়োজন।

আমরা আনন্দিত যে জনসাধারণ সত্যিই ফ্লেক্সজেন সম্পর্কে উত্তেজিত৷ যাইহোক, আমাদের কাজ এখনও প্রস্তুতির মধ্যে রয়েছে এবং এখনও প্রকাশ্য প্রকাশ/ঘোষণার জন্য প্রস্তুত নয়। এই প্রকল্পের প্রাথমিক প্রতিক্রিয়া থেকে, আমরা বুঝতে পেরেছি যে এই README এর প্রাথমিক সংস্করণ এবং আমাদের নথিগুলি FlexGen-এর উদ্দেশ্য সম্পর্কে অস্পষ্ট ছিল। এটি এলএলএম-এর সম্পদের প্রয়োজনীয়তা হ্রাস করার একটি প্রাথমিক প্রচেষ্টা, তবে এর অনেক সীমাবদ্ধতাও রয়েছে এবং পর্যাপ্ত সংস্থান উপলব্ধ থাকলে ব্যবহারের ক্ষেত্রে প্রতিস্থাপনের উদ্দেশ্যে নয়।

এলএলএম ইনফরেন্স হল এমন একটি প্রক্রিয়া যেখানে একটি ভাষা মডেল ব্যবহার করা হয় ইনপুট পাঠ্য সম্পর্কে ভবিষ্যদ্বাণী তৈরি করতে: এতে একটি ভাষা মডেল ব্যবহার করা হয়, যেমন একটি জেনারেটিভ মডেল যেমন একটি জিপিটি (জেনারেটিভ প্রিট্রেইনড ট্রান্সফরমার), যা সম্ভবত সে সম্পর্কে ভবিষ্যদ্বাণী করতে। ঘটতে. একটি নির্দিষ্ট ইনপুট ক্যাপচার টেক্সট পরে একটি প্রতিক্রিয়া হিসাবে প্রদান করা হবে.

FlexGen সম্পর্কে

প্যাকেজটিতে বট তৈরি করার জন্য একটি নমুনা স্ক্রিপ্ট রয়েছে। যা ব্যবহারকারীকে অনুমতি দেয় সর্বজনীনভাবে উপলব্ধ ভাষার মডেলগুলির একটি ডাউনলোড করুন এবং এখনই চ্যাটিং শুরু করুন।

একটি ভিত্তি হিসাবে, এটি বুককর্পাস সংগ্রহ (10 হাজার বই), সিসি-গল্প, পাইল (ওপেনসাবটাইটেল, উইকিপিডিয়া, ডিএম গণিত, হ্যাকারনিউজ, ইত্যাদি), Pushshift.io-এ প্রশিক্ষিত, Facebook দ্বারা প্রকাশিত একটি বৃহৎ ভাষার মডেল ব্যবহার করার প্রস্তাব করা হয়েছে। (Reddit ডেটার উপর ভিত্তি করে)) এবং CCNewsV2 (সংবাদ সংরক্ষণাগার)।

মডেলটি প্রায় 180 বিলিয়ন টোকেন (800 GB ডেটা) কভার করে। মডেলটি প্রশিক্ষণের জন্য 33 NVIDIA A992 100 GB GPU সহ ক্লাস্টারটি চালাতে 80 দিন সময় লেগেছে।

একটি একক NVIDIA T175 GPU (4 GB) সহ একটি সিস্টেমে OPT-16B চালানো, FlexGen ইঞ্জিন পূর্বে দেওয়া সমাধানগুলির তুলনায় 100x দ্রুত কর্মক্ষমতা প্রদর্শন করে, বড় ভাষা মডেল ব্যবহারকে আরও সাশ্রয়ী করে এবং বিশেষ এক্সিলারেটর ছাড়াই সিস্টেমে চালানোর অনুমতি দেয়৷

একই সময়ে, ফ্লেক্সজেন একাধিক GPU-এর উপস্থিতিতে কম্পিউটেশনকে সমান্তরাল করতে স্কেল করতে পারে। মডেলের আকার কমাতে, একটি অতিরিক্ত প্যারামিটার কম্প্রেশন স্কিম এবং মডেল ক্যাশিং প্রক্রিয়া ব্যবহার করা হয়।

বর্তমানে, FlexGen শুধুমাত্র OPT ভাষার মডেল সমর্থন করে, তবে ভবিষ্যতে, বিকাশকারীরা ব্লুম (176 বিলিয়ন প্যারামিটার, 46টি ভাষা এবং 13টি প্রোগ্রামিং ভাষা সমর্থন করে), কোডজেন (22টি প্রোগ্রামিং ভাষায় কোড তৈরি করতে পারে), এবং জিএলএম-এর জন্য সমর্থন যোগ করার প্রতিশ্রুতি দেয়।

অবশেষে এটি উল্লেখ করার মতো যে কোডটি পাইথনে লেখা, পাইটর্চ ফ্রেমওয়ার্ক ব্যবহার করে এবং অ্যাপাচি 2.0 লাইসেন্সের অধীনে বিতরণ করা হয়।

জন্য এটা সম্পর্কে আরো জানতে আগ্রহী, আপনি বিস্তারিত পরীক্ষা করতে পারেন নীচের লিঙ্কে।


আপনার মন্তব্য দিন

আপনার ইমেল ঠিকানা প্রকাশিত হবে না। প্রয়োজনীয় ক্ষেত্রগুলি দিয়ে চিহ্নিত করা *

*

*

  1. ডেটার জন্য দায়বদ্ধ: মিগুয়েল অ্যাঞ্জেল গাটান
  2. ডেটার উদ্দেশ্য: নিয়ন্ত্রণ স্প্যাম, মন্তব্য পরিচালনা।
  3. আইনীকরণ: আপনার সম্মতি
  4. তথ্য যোগাযোগ: ডেটা আইনি বাধ্যবাধকতা ব্যতীত তৃতীয় পক্ষের কাছে জানানো হবে না।
  5. ডেটা স্টোরেজ: ওসেন্টাস নেটওয়ার্কস (ইইউ) দ্বারা হোস্ট করা ডেটাবেস
  6. অধিকার: যে কোনও সময় আপনি আপনার তথ্য সীমাবদ্ধ করতে, পুনরুদ্ধার করতে এবং মুছতে পারেন।