GPT-4: la IA de procesamiento de lenguaje natural de OpenAI podría llegar a finales de este semestre

I maj 2020 publicerade OpenAI, AI-företaget som grundades av Elon Musk och Sam Altman, GPT-3, som sedan presenterades som det stora neurala nätverket för tillfället. En toppmodern språkmodell, GPT-3 innehåller 175 miljarder parametrar jämfört med 1,5 miljarder parametrar från sin föregångare GPT-2.

GPT-3 slå NLG Turing-modellen (Turing Natural Language Generation) från Microsoft med 17 miljarder parametrar som tidigare hade rekordet för det största neurala nätverket. Språkmodellen har förundrats över, kritiserats och till och med utsatts för granskning; den har också hittat nya och intressanta tillämpningar.

Och nu rykten har släppts om att släppet av GPT-4, nästa version av OpenAI-språkmodellen, kan komma snart.

Även inget releasedatum har meddelats ännu, OpenAI har gett några indikationer om egenskaperna hos efterträdaren till GPT-3, som många kan förvänta sig, att GPT-4 inte bör vara större än GPT-3, utan bör använda mer beräkningsresurser, vilket kommer att begränsa dess miljöpåverkan.

Under sessionen, Altman antydde det, tvärtemot vad många tror, GPT-4 kommer inte att vara den största språkmodellen. Modellen kommer utan tvekan att vara större än tidigare generationer av neurala nätverk, men storleken kommer inte att vara dess signum.

För det första har företag insett att att använda modellstorlek som en indikator för att förbättra prestanda inte är det enda eller bästa sättet att göra det. År 2020 drog Jared Kaplan och kollegor på OpenAI enligt uppgift slutsatsen att prestandan förbättras mest när ökningar av beräkningsbudgeten i första hand allokeras till att öka antalet parametrar, efter ett makt-lagsförhållande. Google, Nvidia, Microsoft, OpenAI, DeepMind och andra företag som utvecklar språkmodeller har tagit dessa riktlinjer till nominellt värde.

Men MT-NLG (Megatron-Turing NLG, ett neuralt nätverk byggt av Nvidia och Microsoft förra året med 530 miljarder parametrar), bra som det är, är inte det bästa när det kommer till prestanda. Faktum är att det inte är rankat som bäst i någon benchmarkkategori. Mindre modeller som Gopher eller Chinchilla (70 miljarder parametrar), bara en bråkdel av deras storlek, skulle vara mycket bättre än MT-NLG i alla uppgifter. Därmed blev det tydligt att modellens storlek inte är den enda faktorn som leder till en bättre förståelse av språket.

Enligt Altman lider språkmodeller av en kritisk begränsning. när det kommer till optimering. Utbildning skulle bli så dyrt att företagen skulle behöva kompromissa mellan noggrannhet och kostnad. Detta resulterar ofta i att modeller är dåligt optimerade.

VD:n rapporterade att GPT-3 tränades endast en gång, trots vissa fel som i andra fall skulle ha lett till omskolning. På grund av detta har OpenAI enligt uppgift beslutat emot det på grund av oöverkomliga kostnader, vilket hindrade forskarna från att hitta den bästa uppsättningen hyperparametrar för modellen.

En annan konsekvens av höga utbildningskostnader är att analyser av modellbeteende skulle begränsas. Enligt en rapport, när AI-forskare drog slutsatsen att modellstorleken var den mest relevanta variabeln för att förbättra prestanda, tog de inte hänsyn till antalet träningstokens, det vill säga mängden data som tillhandahålls till modellerna. Detta skulle ha krävt extraordinära mängder datorresurser. Teknikföretag sägs ha följt forskarnas resultat eftersom det var det bästa de hade.

Altman sa att GPT-4 kommer att använda många fler beräkningar än sin föregångare. OpenAI förväntas implementera optimeringsrelaterade idéer i GPT-4, men i vilken utsträckning det inte går att förutsäga eftersom dess budget är okänd.

Men uttalandena av Altman visar att OpenAI bör fokusera på att optimera andra variabler än modellstorlek.. Att hitta den bästa uppsättningen hyperparametrar, optimal modellstorlek och antal parametrar kan leda till otroliga förbättringar över alla riktmärken.

Enligt analytiker kommer alla förutsägelser för språkmodeller att kollapsa om dessa tillvägagångssätt kombineras till en enda modell. Altman sa också att folk inte skulle tro hur mycket bättre modeller kan bli utan att nödvändigtvis vara större. Det kan tyda på att skalningsinsatserna är över för nu.

OpenAI har enligt uppgift lagt ner mycket ansträngning på att lösa AI-anpassningsproblemet: hur får man språkmodeller att följa mänskliga avsikter och följa mänskliga värderingar?

Analytiker säger att detta inte bara är ett svårt matematiskt problem (hur får vi AI att förstå exakt vad vi vill?), utan också ett filosofiskt (det finns inget universellt sätt att anpassa AI med människor, eftersom variationen i mänskliga värderingar från grupp till grupp är enorma och ofta motstridiga).

Slutligen om du är intresserad av att veta mer om detdu kan hänvisa till det ursprungliga inlägget I följande länk.

DesdeLinux

GPT-4: OpenAI:s naturliga språkbehandlings-AI kan komma senare denna termin

Lämna din kommentar Avbryt svar