GPT-4: la IA de procesamiento de lenguaje natural de OpenAI podría llegar a finales de este semestre

Maja 2020 je OpenAI, podjetje za umetno inteligenco, ki sta ga soustanovila Elon Musk in Sam Altman, objavilo GPT-3, ki je bil nato predstavljen kot velika nevronska mreža tega trenutka. Najsodobnejši jezikovni model, GPT-3 vključuje 175 milijard parametrov v primerjavi z 1,5 milijarde parametrov svojega predhodnika GPT-2.

GPT-3 premagal model NLG Turing (Turing Natural Language Generation) iz Microsofta s 17 milijardami parametrov, ki so bili prej rekordni za največjo nevronsko mrežo. Jezikovni model je bil občudovan, kritiziran in celo podvržen pregledu; našel je tudi nove in zanimive aplikacije.

In zdaj so bile objavljene govorice, da je izdaja GPT-4, naslednja različica jezikovnega modela OpenAI, bi lahko prišla kmalu.

Čeprav datum izdaje še ni objavljen, OpenAI je dal nekaj namigov o značilnostih naslednika GPT-3, pri čemer bi marsikdo lahko pričakoval, da GPT-4 ne bi smel biti večji od GPT-3, ampak bi moral uporabljati več računskih virov, kar bo omejilo njegov vpliv na okolje.

Med sejo, Altman je to namignil, v nasprotju s splošnim prepričanjem, GPT-4 ne bo največji jezikovni model. Model bo nedvomno večji od prejšnjih generacij nevronskih mrež, vendar velikost ne bo njegov zaščitni znak.

Prvič, podjetja so spoznala, da uporaba velikosti modela kot indikatorja za izboljšanje učinkovitosti ni edini ali najboljši način za to. Leta 2020 so Jared Kaplan in sodelavci pri OpenAI domnevno sklenili, da se zmogljivost najbolj izboljša, če se povečanja proračuna za računanje v prvi vrsti dodelijo povečanju števila parametrov po razmerju moči in zakona. Google, Nvidia, Microsoft, OpenAI, DeepMind in druga podjetja, ki razvijajo jezikovne modele, so te smernice sprejela po nominalni vrednosti.

Toda MT-NLG (Megatron-Turing NLG, nevronska mreža, ki sta jo lani zgradili Nvidia in Microsoft s 530 milijardami parametrov), kljub temu, da je odličen, ni najboljši, ko gre za zmogljivost. Pravzaprav ni ocenjen kot najboljši v nobeni kategoriji primerjalnih vrednosti. Manjši modeli, kot sta Gopher ali Chinchilla (70 milijard parametrov), le delček njihove velikosti, bi bili pri vseh nalogah veliko boljši od MT-NLG. Tako je postalo jasno, da velikost modela ni edini dejavnik, ki vodi k boljšemu razumevanju jezika.

Po Altmanu jezikovni modeli trpijo zaradi kritične omejitve. ko gre za optimizacijo. Usposabljanje bi bilo tako drago, da bi morala podjetja sklepati kompromise med natančnostjo in stroški. To pogosto povzroči, da so modeli slabo optimizirani.

Izvršni direktor je poročal, da je bil GPT-3 usposobljen le enkrat, kljub nekaterim napakam, ki bi v drugih primerih vodile do ponovnega usposabljanja. Zaradi tega naj bi se OpenAI odločil proti temu zaradi nedostopnih stroškov, kar je raziskovalcem preprečilo, da bi našli najboljši nabor hiperparametrov za model.

Druga posledica visokih stroškov usposabljanja je, da bi bile analize vedenja modela omejene. Po enem poročilu, ko so raziskovalci umetne inteligence ugotovili, da je velikost modela najpomembnejša spremenljivka za izboljšanje zmogljivosti, niso upoštevali števila žetonov za usposabljanje, to je količine podatkov, ki so bili posredovani modelom. To bi zahtevalo izredne količine računalniških virov. Tehnološka podjetja naj bi sledila ugotovitvam raziskovalcev, ker je bilo to najboljše, kar so imeli.

Altman dejal, da bo GPT-4 uporabil veliko več izračunov kot njegov predhodnik. Pričakuje se, da bo OpenAI implementiral ideje, povezane z optimizacijo v GPT-4, čeprav ni mogoče predvideti, v kolikšni meri je njegov proračun neznan.

Vendar pa izjave Altman kažejo, da bi se moral OpenAI osredotočiti na optimizacijo spremenljivk, ki niso velikost modela.. Iskanje najboljšega nabora hiperparametrov, optimalne velikosti modela in števila parametrov bi lahko privedlo do neverjetnih izboljšav v vseh merilih uspešnosti.

Po mnenju analitikov se bodo vse napovedi za jezikovne modele sesule, če bi te pristope združili v en sam model. Altman je tudi dejal, da ljudje ne bi verjeli, koliko so lahko boljši modeli, ne da bi bili nujno večji. Morda namiguje, da so prizadevanja za skaliranje za zdaj končana.

OpenAI naj bi vložil veliko truda v reševanje problema usklajevanja AI: kako narediti jezikovne modele, da sledijo človeškim namenom in se držijo človeških vrednot?

Analitiki pravijo, da to ni le težak matematični problem (kako naj AI natančno razume, kaj hočemo?), ampak tudi filozofski (ne obstaja univerzalen način za uskladitev AI z ljudmi, saj je spremenljivost AI človeške vrednote od skupine do skupine so ogromne in pogosto nasprotujoče).

Končno če vas zanima več o temlahko se sklicujete na izvirno objavo V naslednji povezavi.

DesdeLinux

GPT-4: AI za obdelavo naravnega jezika OpenAI bi lahko prišel pozneje v tem semestru

Pustite svoj komentar Prekliči odgovor