GPT-4: OpenAI의 자연어 처리 AI가 이번 학기 말에 출시될 수 있습니다

2020년 3월 Elon Musk와 Sam Altman이 공동 설립한 AI 회사 OpenAI는 GPT-XNUMX을 발표하고 당시의 위대한 신경망으로 제시했습니다. 최첨단 언어 모델, GPT-3에는 175억 개의 매개변수가 포함되어 있습니다. 이전 GPT-1,5의 2억 개 매개변수와 비교됩니다.

GPT-3 NLG 튜링 모델을 이기다 (Turing Natural Language Generation) 이전에 가장 큰 신경망에 대한 기록을 보유한 17억 개의 매개 변수가 있는 Microsoft의. 언어 모델은 놀라움과 비판을 받았으며 심지어 정밀 조사를 받기까지 했습니다. 또한 새롭고 흥미로운 응용 프로그램을 발견했습니다.

그리고 지금 GPT-4가 출시되었다는 루머가 나왔다., OpenAI 언어 모델의 다음 버전이 곧 출시될 수 있습니다.

이기는하지만 아직 발매일은 발표되지 않았지만, OpenAI는 GPT-3가 GPT-4보다 크지 않아야 하지만 더 많은 계산 리소스를 사용해야 환경에 미치는 영향을 제한할 것으로 많은 사람들이 예상할 수 있는 GPT-3의 후계자의 특성에 대한 몇 가지 표시를 제공했습니다.

세션 중, 알트만은 다음과 같이 암시했다., 대중적인 믿음과 달리, GPT-4는 가장 큰 언어 모델이 아닙니다.. 이 모델은 의심할 여지 없이 이전 세대의 신경망보다 크지만 크기가 특징은 아닙니다.

첫째, 기업은 모델 크기를 지표로 사용하여 성능을 개선하는 것이 유일한 또는 최선의 방법이 아님을 깨달았습니다. 2020년 OpenAI의 Jared Kaplan과 동료들은 멱법칙 관계에 따라 컴퓨팅 예산 증가가 주로 매개변수 수를 늘리는 데 할당될 때 성능이 가장 향상된다는 결론을 내렸습니다. Google, Nvidia, Microsoft, OpenAI, DeepMind 및 언어 모델을 개발하는 기타 회사는 이러한 지침을 액면 그대로 받아들였습니다.

그러나 MT-NLG(Megatron-Turing NLG, Nvidia와 Microsoft가 작년에 530억 개의 매개변수로 구축한 신경망)는 그 자체로 성능면에서 최고가 아닙니다. 사실, 그것은 어떤 벤치마크 카테고리에서도 최고로 평가되지 않았습니다. Gopher 또는 Chinchilla와 같은 더 작은 모델(70억 개의 매개변수)은 크기의 일부에 불과하며 모든 작업에서 MT-NLG보다 훨씬 낫습니다. 따라서 모델의 크기가 언어에 대한 더 나은 이해로 이어지는 유일한 요소가 아니라는 것이 분명해졌습니다.

Altman에 따르면 언어 모델은 치명적인 한계를 안고 있습니다. 최적화에 관해서. 교육 비용이 너무 많이 들므로 기업은 정확성과 비용 사이에서 타협해야 할 것입니다. 이로 인해 종종 모델이 제대로 최적화되지 않습니다.

CEO는 GPT-3이 다른 경우 재교육으로 이어질 수 있는 몇 가지 오류에도 불구하고 한 번만 교육을 받았다고 보고했습니다. 이 때문에 OpenAI는 감당할 수 없는 비용으로 인해 연구원들이 모델에 가장 적합한 하이퍼파라미터 세트를 찾지 못해 이를 거부한 것으로 알려졌습니다.

높은 훈련 비용의 또 다른 결과는 모델 행동 분석이 제한된다는 것입니다. 한 보고서에 따르면 AI 연구자들은 모델 크기가 성능 향상과 가장 관련이 있는 변수라고 결론을 내릴 때 훈련 토큰의 수, 즉 모델에 제공되는 데이터의 양을 고려하지 않았다. 이를 위해서는 엄청난 양의 컴퓨팅 리소스가 필요했을 것입니다. 기술 회사는 그들이 가진 최고였기 때문에 연구원의 발견을 따랐다고 합니다.

알트만 GPT-4는 이전 버전보다 더 많은 계산을 사용할 것이라고 말했습니다.. OpenAI는 GPT-4에서 최적화 관련 아이디어를 구현할 것으로 예상되지만 예산이 알려지지 않아 어느 정도까지 예측할 수는 없습니다.

그러나 의 진술 Altman은 OpenAI가 모델 크기 이외의 변수 최적화에 집중해야 함을 보여줍니다.. 최적의 하이퍼파라미터 세트, 최적의 모델 크기 및 파라미터 수를 찾는 것은 모든 벤치마크에서 놀라운 개선으로 이어질 수 있습니다.

분석가에 따르면 이러한 접근 방식이 단일 모델로 결합되면 언어 모델에 대한 모든 예측이 무너질 것입니다. Altman은 또한 사람들이 더 큰 모델 없이는 얼마나 더 나은 모델이 될 수 있는지 믿지 않을 것이라고 말했습니다. 현재로서는 스케일링 노력이 끝났다는 의미일 수 있습니다.

OpenAI는 AI 정렬 문제를 해결하기 위해 많은 노력을 기울인 것으로 알려졌습니다. 언어 모델이 인간의 의도를 따르고 인간의 가치를 준수하도록 하는 방법은 무엇입니까?

분석가들은 이것이 어려운 수학적 문제일 뿐만 아니라(AI가 우리가 원하는 것을 정확히 이해하게 하려면 어떻게 해야 합니까?) 철학적인 문제이기도 합니다(AI를 인간과 일치시키는 보편적인 방법은 없습니다. 그룹에서 그룹으로 인간의 가치는 거대하고 종종 충돌합니다).

최종적으로 그것에 대해 더 많이 알고 싶다면당신은 원래 게시물을 참조할 수 있습니다 다음 링크에서.

DesdeLinux

GPT-4: OpenAI의 자연어 처리 AI는 이번 학기 말에 도착할 수 있습니다.

코멘트를 남겨주세요 답장 취소