단일 GPU에서 AI 봇을 실행하는 엔진인 FlexGen

FlexGen은 대규모 언어 모델의 추론 리소스 요구 사항을 단일 GPU로 줄이는 것을 목적으로 구축된 엔진입니다.

최근에 발표 된 뉴스는 연구원 그룹 스탠포드 대학교, 버클리 캘리포니아 대학교, 취리히 공과대학교, 카네기 멜론 대학교 경제학 대학원, Yandex와 Meta는 다음의 소스 코드를 공개했습니다. un 대규모 언어 모델을 실행하기 위한 엔진 리소스가 제한된 시스템에서.

코드네임으로 «FlexGen»은 요구 사항 LLM 추론 작업을 위한 리소스. GitHub에 게시된 FlexGen에는 Python 및 PyTorch만 필요하지만 대부분 NVIDIA Tesla T4 또는 GeForce RTX 3090과 같은 단일 GPU와 함께 사용할 수 있습니다.

예 엔진은 ChatGPT 및 Copilot을 연상시키는 기능을 생성하는 기능을 제공합니다. 175GB 비디오 메모리가 장착된 NVIDIA RTX175 게이밍 그래픽 카드가 장착된 일반 컴퓨터에서 3090억 개의 매개변수를 다루는 사전 훈련된 OPT-24B 모델을 실행했습니다.

(LLM) 모델은 ChatGPT 및 Copilot과 같은 도구의 작동을 지원한다고 언급됩니다. 이들은 수십억 개의 매개변수를 사용하고 방대한 양의 데이터에 대해 훈련된 대규모 모델입니다.

LLM 추론 작업에 대한 높은 계산 및 메모리 요구 사항은 일반적으로 고급 가속기를 사용해야 합니다.

우리는 대중이 FlexGen에 대해 정말로 흥분하고 있다는 것을 기쁘게 생각합니다. 그러나 우리의 작업은 아직 준비 중이며 아직 공개/발표할 준비가 되지 않았습니다. 이 프로젝트에 대한 초기 피드백을 통해 우리는 이 README의 초기 버전과 우리 문서가 FlexGen의 목적에 대해 명확하지 않다는 것을 깨달았습니다. 이것은 LLM의 리소스 요구 사항을 줄이기 위한 예비 노력이지만 많은 제한 사항이 있으며 충분한 리소스를 사용할 수 있는 경우 사용 사례를 대체하기 위한 것이 아닙니다.

LLM 추론은 언어 모델을 사용하여 입력 텍스트에 대한 예측을 생성하는 프로세스입니다. GPT(Generative Pretrained Transformer)와 같은 생성 모델과 같은 언어 모델을 사용하여 가장 가능성이 높은 것에 대한 예측을 수행합니다. 일어날. 특정 입력 캡처 텍스트 후 응답으로 제공됩니다.

플렉스젠 소개

패키지에는 봇을 생성하기 위한 샘플 스크립트가 포함되어 있습니다. 이는 사용자가 공개적으로 사용 가능한 언어 모델 중 하나를 다운로드하십시오. 바로 채팅을 시작합니다.

이를 기반으로 BookCorpus 컬렉션(10권), CC-Stories, Pile(OpenSubtitles, Wikipedia, DM Mathematics, HackerNews 등), Pushshift.io에서 훈련된 Facebook에서 게시한 대규모 언어 모델을 사용할 것을 제안합니다. (Reddit 데이터 기반)) 및 CCNewsV2(뉴스 아카이브).

이 모델은 약 180억 개의 토큰(데이터 800GB)을 다룹니다. 모델 훈련을 위해 33개의 NVIDIA A992 100GB GPU로 클러스터를 실행하는 데 80일이 걸렸습니다.

단일 NVIDIA T175 GPU(4GB)가 있는 시스템에서 OPT-16B를 실행하는 FlexGen 엔진은 이전에 제공된 솔루션보다 최대 100배 더 빠른 성능을 보여 대규모 언어 모델 사용을 더 저렴하게 만들고 특수 가속기 없이 시스템에서 실행할 수 있습니다.

동시에 FlexGen은 여러 GPU가 있는 상태에서 계산을 병렬화하도록 확장할 수 있습니다. 모델의 크기를 줄이기 위해 추가 매개변수 압축 체계와 모델 캐싱 메커니즘이 사용됩니다.

현재, FlexGen은 OPT 언어 모델만 지원합니다.그러나 향후 개발자는 BLOOM(176억 매개변수, 46개 언어 및 13개 프로그래밍 언어 지원), CodeGen(22개 프로그래밍 언어로 코드 생성 가능) 및 GLM에 대한 지원을 추가할 것을 약속합니다.

마지막으로 코드가 Python으로 작성되고 PyTorch 프레임워크를 사용하며 Apache 2.0 라이선스에 따라 배포된다는 점을 언급할 가치가 있습니다.

에 그것에 대해 더 알고 싶어함, 당신은 세부 사항을 확인할 수 있습니다 다음 링크에서.

DesdeLinux

단일 GPU에서 AI 봇을 실행하기 위한 엔진인 FlexGen

플렉스젠 소개

코멘트를 남겨주세요 답장 취소