FlexGen, ஒற்றை GPU இல் AI போட்களை இயக்குவதற்கான ஒரு இயந்திரம்

FlexGen

FlexGen என்பது பெரிய மொழி மாதிரிகளின் அனுமான ஆதாரத் தேவைகளை ஒரு GPU ஆகக் குறைக்கும் நோக்கத்துடன் உருவாக்கப்பட்ட ஒரு இயந்திரமாகும்.

என்று சமீபத்தில் செய்தி வெளியிடப்பட்டது ஆராய்ச்சியாளர்களின் குழு ஸ்டான்போர்ட் பல்கலைக்கழகம், பெர்க்லியில் உள்ள கலிபோர்னியா பல்கலைக்கழகம், ETH சூரிச், பொருளாதார பட்டதாரி பள்ளி, கார்னகி மெலன் பல்கலைக்கழகம் மற்றும் Yandex மற்றும் Meta, இன் மூலக் குறியீட்டை வெளியிட்டுள்ளன un பெரிய மொழி மாதிரிகளை இயக்குவதற்கான இயந்திரம் வரையறுக்கப்பட்ட வளங்களைக் கொண்ட அமைப்புகளில்.

குறியீட்டு பெயருடன் "FlexGen" என்பது குறிப்பிடத்தக்க வகையில் குறைக்கும் ஒரு திட்டமாகும் தேவைகள் LLM அனுமான நடவடிக்கைகளுக்கான ஆதாரங்கள். GitHub இல் வெளியிடப்பட்டது, FlexGen க்கு Python மற்றும் PyTorch மட்டுமே தேவை, ஆனால் பெரும்பாலும் NVIDIA Tesla T4 அல்லது GeForce RTX 3090 போன்ற ஒரு GPU உடன் பயன்படுத்த முடியும்.

உதாரணமாக, ChatGPT மற்றும் Copilot ஐ நினைவூட்டும் செயல்பாட்டை உருவாக்கும் திறனை இயந்திரம் வழங்குகிறது 175 GB வீடியோ நினைவகத்துடன் கூடிய NVIDIA RTX175 கேமிங் கிராபிக்ஸ் கார்டுடன் வழக்கமான கணினியில் 3090 பில்லியன் அளவுருக்களை உள்ளடக்கிய முன் பயிற்சியளிக்கப்பட்ட OPT-24B மாதிரியை இயக்குகிறது.

(LLM) மாதிரிகள் ChatGPT மற்றும் Copilot போன்ற கருவிகளின் செயல்பாட்டை ஆதரிக்கின்றன என்று குறிப்பிடப்பட்டுள்ளது. இவை பில்லியன் கணக்கான அளவுருக்களைப் பயன்படுத்தும் பெரிய மாதிரிகள் மற்றும் பரந்த அளவிலான தரவுகளில் பயிற்சியளிக்கப்படுகின்றன.

LLM அனுமானப் பணிகளுக்கான உயர் கணக்கீட்டு மற்றும் நினைவகத் தேவைகளுக்கு பொதுவாக உயர்நிலை முடுக்கிகளின் பயன்பாடு தேவைப்படுகிறது.

FlexGen பற்றி பொதுமக்கள் மிகவும் உற்சாகமாக இருப்பதில் நாங்கள் மகிழ்ச்சியடைகிறோம். எவ்வாறாயினும், எங்கள் பணி இன்னும் தயாரிப்பில் உள்ளது மற்றும் பொது வெளியீடு/அறிவிப்புக்கு இன்னும் தயாராக இல்லை. இந்தத் திட்டம் குறித்த முந்தைய பின்னூட்டங்களிலிருந்து, இந்த README இன் ஆரம்ப பதிப்புகள் மற்றும் எங்கள் ஆவணம் FlexGen இன் நோக்கம் தெளிவாக இல்லை என்பதை நாங்கள் உணர்ந்தோம். இது எல்எல்எம்களின் ஆதாரத் தேவைகளைக் குறைப்பதற்கான ஒரு ஆரம்ப முயற்சியாகும், ஆனால் இது பல வரம்புகளைக் கொண்டுள்ளது மற்றும் போதுமான ஆதாரங்கள் கிடைக்கும்போது பயன்பாட்டு நிகழ்வுகளை மாற்றும் நோக்கம் கொண்டதல்ல.

LLM அனுமானம் என்பது உள்ளீட்டு உரை பற்றிய கணிப்புகளை உருவாக்குவதற்கு ஒரு மொழி மாதிரி பயன்படுத்தப்படும் ஒரு செயல்முறையாகும்: இது GPT (Generative Pretrained Transformer) போன்ற ஒரு மொழி மாதிரியைப் பயன்படுத்துவதை உள்ளடக்கியது. நிகழ. ஒரு குறிப்பிட்ட உள்ளீடு கைப்பற்றப்பட்ட உரைக்குப் பிறகு பதில் அளிக்கப்படும்.

FlexGen பற்றி

தொகுப்பில் போட்களை உருவாக்க மாதிரி ஸ்கிரிப்ட் உள்ளது. இது பயனரை அனுமதிக்கிறது பொதுவில் கிடைக்கும் மொழி மாதிரிகளில் ஒன்றைப் பதிவிறக்கவும் உடனே அரட்டை அடிக்க ஆரம்பியுங்கள்.

ஒரு தளமாக, புக்கார்பஸ் சேகரிப்புகள் (10 ஆயிரம் புத்தகங்கள்), CC-கதைகள், பைல் (OpenSubtitles, Wikipedia, DM Mathematics, HackerNews, முதலியன), Pushshift.io ஆகியவற்றில் பயிற்றுவிக்கப்பட்ட Facebook வெளியிடும் பெரிய மொழி மாதிரியைப் பயன்படுத்த முன்மொழியப்பட்டுள்ளது. (Reddit தரவுகளின் அடிப்படையில்) மற்றும் CCNewsV2 (செய்தி காப்பகம்).

மாடல் சுமார் 180 பில்லியன் டோக்கன்களை (800 ஜிபி டேட்டா) உள்ளடக்கியது. மாடலைப் பயிற்றுவிக்க 33 NVIDIA A992 100 GB GPUகளுடன் கிளஸ்டரை இயக்க 80 நாட்கள் ஆனது.

ஒற்றை NVIDIA T175 GPU (4 GB) கொண்ட கணினியில் OPT-16B இயங்கும், FlexGen இன்ஜின் முன்பு வழங்கப்பட்ட தீர்வுகளை விட 100x வேகமான செயல்திறனை வெளிப்படுத்தியது, பெரிய மொழி மாதிரி பயன்பாடு மிகவும் மலிவு மற்றும் சிறப்பு முடுக்கிகள் இல்லாத கணினிகளில் இயங்க அனுமதிக்கிறது.

அதே நேரத்தில், FlexGen பல GPUகளின் முன்னிலையில் கணக்கீடுகளை இணையாக அளவிட முடியும். மாதிரியின் அளவைக் குறைக்க, கூடுதல் அளவுரு சுருக்கத் திட்டம் மற்றும் மாதிரி கேச்சிங் பொறிமுறை பயன்படுத்தப்படுகிறது.

தற்போது, FlexGen OPT மொழி மாதிரிகளை மட்டுமே ஆதரிக்கிறது, ஆனால் எதிர்காலத்தில், டெவலப்பர்கள் BLOOM (176 பில்லியன் அளவுருக்கள், 46 மொழிகள் மற்றும் 13 நிரலாக்க மொழிகளை ஆதரிக்கிறது), CodeGen (22 நிரலாக்க மொழிகளில் குறியீட்டை உருவாக்க முடியும்) மற்றும் GLM ஆகியவற்றிற்கான ஆதரவைச் சேர்ப்பதாகவும் உறுதியளிக்கிறார்கள்.

இறுதியாக, குறியீடு பைத்தானில் எழுதப்பட்டுள்ளது, பைடார்ச் கட்டமைப்பைப் பயன்படுத்துகிறது மற்றும் அப்பாச்சி 2.0 உரிமத்தின் கீழ் விநியோகிக்கப்படுகிறது என்பது குறிப்பிடத்தக்கது.

இதற்காக அதைப் பற்றி மேலும் அறிய ஆர்வமாக உள்ளது, நீங்கள் விவரங்களை சரிபார்க்கலாம் பின்வரும் இணைப்பில்.


உங்கள் கருத்தை தெரிவிக்கவும்

உங்கள் மின்னஞ்சல் முகவரி வெளியிடப்பட்ட முடியாது. தேவையான புலங்கள் குறிக்கப்பட்டிருக்கும் *

*

*

  1. தரவுக்கு பொறுப்பு: மிகுவல் ஏஞ்சல் கேடன்
  2. தரவின் நோக்கம்: கட்டுப்பாட்டு ஸ்பேம், கருத்து மேலாண்மை.
  3. சட்டபூர்வமாக்கல்: உங்கள் ஒப்புதல்
  4. தரவின் தொடர்பு: சட்டபூர்வமான கடமையால் தவிர மூன்றாம் தரப்பினருக்கு தரவு தெரிவிக்கப்படாது.
  5. தரவு சேமிப்பு: ஆக்சென்டஸ் நெட்வொர்க்குகள் (EU) வழங்கிய தரவுத்தளம்
  6. உரிமைகள்: எந்த நேரத்திலும் உங்கள் தகவல்களை நீங்கள் கட்டுப்படுத்தலாம், மீட்டெடுக்கலாம் மற்றும் நீக்கலாம்.