GPT-4: OpenAI's naturlige sprogbehandlings-AI kunne ankomme i slutningen af dette semester

I maj 2020 udgav OpenAI, AI-virksomheden, der blev grundlagt af Elon Musk og Sam Altman, GPT-3, der derefter blev præsenteret som øjeblikkets store neurale netværk. En state-of-the-art sprogmodel, GPT-3 indeholder 175 milliarder parametre sammenlignet med de 1,5 milliarder parametre for sin forgænger GPT-2.

GPT-3 slå NLG Turing-modellen (Turing Natural Language Generation) fra Microsoft med 17 milliarder parametre, der tidligere holdt rekorden for det største neurale netværk. Sprogmodellen er blevet forundret over, kritiseret og endda udsat for granskning; den har også fundet nye og interessante applikationer.

Og nu rygter er blevet frigivet om, at udgivelsen af GPT-4, den næste version af OpenAI-sprogmodellen, kommer muligvis snart.

Skønt ingen udgivelsesdato er offentliggjort endnu, OpenAI har givet nogle indikationer om egenskaberne for efterfølgeren til GPT-3, som mange kunne forvente, at GPT-4 ikke skulle være større end GPT-3, men skulle bruge flere beregningsressourcer, hvilket vil begrænse dens miljøpåvirkning.

Under sessionen, Altman antydede deti modsætning til hvad folk tror, GPT-4 bliver ikke den største sprogmodel. Modellen vil uden tvivl være større end tidligere generationer af neurale netværk, men størrelsen vil ikke være dens kendetegn.

For det første har virksomheder indset, at brug af modelstørrelse som en indikator til at forbedre ydeevnen ikke er den eneste eller bedste måde at gøre det på. I 2020 konkluderede Jared Kaplan og hans OpenAI-kolleger efter sigende, at ydeevnen forbedres mest, når stigninger i beregningsbudgettet primært allokeres til at øge antallet af parametre, efter et magtlovsforhold. Google, Nvidia, Microsoft, OpenAI, DeepMind og andre virksomheder, der udvikler sprogmodeller, har taget disse retningslinjer for pålydende.

Men MT-NLG (Megatron-Turing NLG, et neuralt netværk bygget af Nvidia og Microsoft sidste år med 530 milliarder parametre), fantastisk som det er, er ikke det bedste, når det kommer til ydeevne. Faktisk er den ikke vurderet som den bedste i nogen benchmarkkategori. Mindre modeller som Gopher eller Chinchilla (70 milliarder parametre), kun en brøkdel af deres størrelse, ville være meget bedre end MT-NLG i alle opgaver. Dermed blev det klart, at modellens størrelse ikke er den eneste faktor, der fører til en bedre forståelse af sproget.

Ifølge Altman lider sprogmodeller af en kritisk begrænsning. når det kommer til optimering. Uddannelse vil være så dyr, at virksomhederne bliver nødt til at gå på kompromis mellem nøjagtighed og omkostninger. Dette resulterer ofte i, at modeller er dårligt optimerede.

Den administrerende direktør rapporterede, at GPT-3 kun blev trænet én gang, på trods af nogle fejl, der i andre tilfælde ville have ført til omskoling. På grund af dette besluttede OpenAI sig angiveligt imod det på grund af uoverkommelige omkostninger, som forhindrede forskerne i at finde det bedste sæt hyperparametre til modellen.

En anden konsekvens af høje uddannelsesomkostninger er, at analyser af modeladfærd ville blive begrænset. Ifølge en rapport, da AI-forskere konkluderede, at modelstørrelsen var den mest relevante variabel til at forbedre ydeevnen, tog de ikke højde for antallet af træningstokens, det vil sige mængden af data, der blev leveret til modellerne. Dette ville have krævet ekstraordinære mængder computerressourcer. Teknikvirksomheder fulgte efter sigende forskernes resultater, fordi det var det bedste, de havde.

Altman sagde, at GPT-4 vil bruge mange flere beregninger end sin forgænger. OpenAI forventes at implementere optimerings-relaterede ideer i GPT-4, selvom det ikke er muligt at forudsige i hvilket omfang dets budget er ukendt.

Men udtalelserne af Altman viser, at OpenAI bør fokusere på at optimere andre variabler end modelstørrelse.. At finde det bedste sæt hyperparametre, optimal modelstørrelse og antal parametre kan føre til utrolige forbedringer på tværs af alle benchmarks.

Ifølge analytikere vil alle forudsigelser for sprogmodeller kollapse, hvis disse tilgange kombineres til en enkelt model. Altman sagde også, at folk ikke ville tro, hvor meget bedre modeller kan være uden nødvendigvis at være større. Det kan tyde på, at skaleringsindsatsen er forbi for nu.

OpenAI har angiveligt lagt en stor indsats i at løse AI-tilpasningsproblemet: hvordan får man sprogmodeller til at følge menneskelige intentioner og overholde menneskelige værdier?

Analytikere siger, at dette ikke kun er et vanskeligt matematisk problem (hvordan får vi AI til at forstå præcis, hvad vi ønsker?), men også et filosofisk (der er ingen universel måde at tilpasse AI med mennesker, da de menneskelige værdiers variabilitet fra gruppe til gruppe er enorm og ofte modstridende).

Endelig hvis du er interesseret i at vide mere om detdu kan henvise til det originale indlæg I det følgende link.

DesdeLinux

GPT-4: OpenAI's naturlige sprogbehandlings-AI kunne ankomme senere på semesteret

Efterlad din kommentar Annuller svar