GPT-4: OpenAI loomuliku keele töötlemise AI võib jõuda selle semestri lõpus

2020. aasta mais avaldas Elon Muski ja Sam Altmani kaasasutatud tehisintellektiettevõte OpenAI GPT-3, mida esitleti hetke suurepärase närvivõrguna. Kaasaegne keelemudel, GPT-3 sisaldab 175 miljardit parameetrit võrreldes eelkäija GPT-1,5 2 miljardi parameetriga.

GPT-3 võita NLG Turingi mudelit (Turing Natural Language Generation) Microsoftilt 17 miljardi parameetriga, mis hoidis varem suurima närvivõrgu rekordit. Keelemudelit on imestatud, kritiseeritud ja isegi kontrollitud; see on leidnud ka uusi ja huvitavaid rakendusi.

Ja nüüd on avaldatud kuulujutud, et GPT-4 vabastamine, OpenAI keelemudeli järgmine versioon, võib peagi ilmuda.

Kuigi väljalaskekuupäeva pole veel välja kuulutatud, OpenAI on andnud mõningaid vihjeid GPT-3 järglase omaduste kohta, mida paljud võivad eeldada, et GPT-4 ei tohiks olla suurem kui GPT-3, vaid peaks kasutama rohkem arvutusressursse, mis piirab selle keskkonnamõju.

Seansi ajal, Altman vihjas sellele, vastupidiselt levinud arvamusele, GPT-4 ei ole suurim keelemudel. Mudel on kahtlemata suurem kui eelmiste põlvkondade närvivõrgud, kuid suurus ei ole selle tunnuseks.

Esiteks on ettevõtted mõistnud, et mudeli suuruse kasutamine näitajana jõudluse parandamiseks ei ole ainus ega parim viis seda teha. 2020. aastal jõudsid Jared Kaplan ja kolleegid OpenAI-st väidetavalt järeldusele, et jõudlus paraneb kõige rohkem siis, kui arvutuseelarve suurendamine suunatakse peamiselt parameetrite arvu suurendamisele, järgides võimuseaduse suhet. Google, Nvidia, Microsoft, OpenAI, DeepMind ja teised ettevõtted, kes arendavad keelemudeleid, on neid suuniseid arvestanud.

Kuid MT-NLG (Megatron-Turing NLG, Nvidia ja Microsofti eelmisel aastal ehitatud närvivõrk 530 miljardi parameetriga), nii suurepärane, kui see on, pole jõudluse osas parim. Tegelikult pole seda hinnatud üheski võrdluskategoorias parimaks. Väiksemad mudelid, nagu Gopher või Chinchilla (70 miljardit parameetrit), mis on vaid murdosa nende suurusest, oleksid kõigis ülesannetes palju paremad kui MT-NLG. Nii sai selgeks, et mudeli suurus ei ole ainus tegur, mis viib keele parema mõistmiseni.

Altmani sõnul kannatavad keelemudelid kriitilise piirangu all. kui tegemist on optimeerimisega. Koolitus oleks nii kallis, et ettevõtted peaksid tegema kompromisse täpsuse ja maksumuse vahel. Selle tulemuseks on sageli mudelid halvasti optimeeritud.

Tegevjuht teatas, et GPT-3 koolitati ainult üks kord, hoolimata mõnest veast, mis muudel juhtudel oleks viinud ümberõppeni. Seetõttu otsustas OpenAI väidetavalt selle vastu, kuna see oli taskukohane, mis ei võimaldanud teadlastel leida mudeli jaoks parimat hüperparameetrite komplekti.

Kõrgete koolituskulude teine tagajärg on mudeli käitumise analüüside piiramine. Ühe aruande kohaselt ei võtnud AI teadlased järeldusele, et mudeli suurus on jõudluse parandamiseks kõige olulisem muutuja, ei võtnud nad arvesse koolitusmärkide arvu, st mudelitele esitatavate andmete hulka. See oleks nõudnud erakordselt suuri arvutusressursse. Tehnikaettevõtted järgisid teadlaste leide, sest see oli parim, mis neil oli.

Altman ütles, et GPT-4 kasutab palju rohkem arvutusi kui tema eelkäija. Eeldatakse, et OpenAI rakendab optimeerimisega seotud ideid GPT-4-s, kuigi selle eelarvet pole võimalik ennustada.

Kuid avaldused Altman näitavad, et OpenAI peaks keskenduma muude muutujate optimeerimisele peale mudeli suuruse.. Parima hüperparameetrite komplekti, optimaalse mudeli suuruse ja parameetrite arvu leidmine võib tuua kaasa uskumatuid täiustusi kõigis võrdlusalustes.

Analüütikute sõnul kukuvad kõik keelemudelite ennustused kokku, kui need lähenemisviisid ühendada üheks mudeliks. Altman ütles ka, et inimesed ei usuks, kui palju paremad võivad olla modellid, ilma et nad oleksid tingimata suuremad. See võib viidata sellele, et skaleerimisega seotud jõupingutused on praeguseks lõppenud.

Väidetavalt on OpenAI teinud palju pingutusi AI joondamise probleemi lahendamiseks: kuidas panna keelemudeleid järgima inimese kavatsusi ja järgima inimlikke väärtusi?

Analüütikud ütlevad, et see pole mitte ainult keeruline matemaatiline probleem (kuidas me saame tehisintellektil täpselt aru saada, mida me tahame?), vaid ka filosoofiline (ei ole universaalset viisi AI inimestega vastavusse viimiseks, kuna tehisintellekti varieeruvus on inimväärtused rühmast rühma on tohutud ja sageli vastuolulised).

Lõpuks kui olete huvitatud sellest rohkem teada saamavõite viidata algsele postitusele Järgmisel lingil.

DesdeLinux

GPT-4: OpenAI loomuliku keele töötlemise AI võib jõuda selle semestri lõpus

Jäta oma kommentaar Tühista vastus