GPT-4: OpenAI natūralios kalbos apdorojimo dirbtinis intelektas gali pasirodyti šio semestro pabaigoje

2020 m. gegužę Elono Musko ir Samo Altmano bendrai įkurta dirbtinio intelekto įmonė OpenAI išleido GPT-3, kuris tuomet buvo pristatytas kaip puikus šio momento neuroninis tinklas. Naujausias kalbos modelis, GPT-3 apima 175 milijardus parametrų palyginti su 1,5 mlrd. jo pirmtako GPT-2 parametrų.

GPT-3 nugalėjo NLG Turing modelį (Turing Natural Language Generation) iš Microsoft su 17 milijardų parametrų, kurie anksčiau buvo didžiausio neuroninio tinklo rekordas. Kalbos modelis buvo stebimas, kritikuojamas ir netgi tikrinamas; ji taip pat rado naujų ir įdomių pritaikymų.

Ir dabar pasklido gandai, kad GPT-4 išleidimasNetrukus gali pasirodyti kita OpenAI kalbos modelio versija.

Nors išleidimo data dar nepaskelbta, OpenAI pateikė tam tikrų nuorodų apie GPT-3 įpėdinio ypatybes, kurių daugelis gali tikėtis, kad GPT-4 neturėtų būti didesnis nei GPT-3, bet turėtų naudoti daugiau skaičiavimo išteklių, o tai apribos jo poveikį aplinkai.

Sesijos metu, Altmanas tai užsiminė, priešingai populiarųjį įsitikinimu, GPT-4 nebus didžiausias kalbos modelis. Modelis neabejotinai bus didesnis nei ankstesnių kartų neuroniniai tinklai, tačiau dydis nebus jo skiriamasis bruožas.

Pirma, įmonės suprato, kad modelio dydžio kaip rodiklio naudojimas našumui pagerinti nėra vienintelis ar geriausias būdas tai padaryti. Pranešama, kad 2020 m. Jaredas Kaplanas ir jo „OpenAI“ kolegos padarė išvadą, kad našumas labiausiai pagerėja, kai didinant skaičiavimo biudžetą pirmiausia siekiama padidinti parametrų skaičių, atsižvelgiant į galios dėsnį. „Google“, „Nvidia“, „Microsoft“, „OpenAI“, „DeepMind“ ir kitos kalbos modelius kuriančios įmonės atsižvelgė į šias gaires.

Tačiau MT-NLG (Megatron-Turing NLG, praeitais metais Nvidia ir Microsoft sukurtas neuroninis tinklas su 530 milijardų parametrų), nors ir puikus, našumo atžvilgiu nėra pats geriausias. Tiesą sakant, jis nėra įvertintas geriausiais jokioje etaloninėje kategorijoje. Mažesni modeliai, tokie kaip Gopher arba Chinchilla (70 milijardų parametrų), tik dalis jų dydžio, būtų daug geresni nei MT-NLG atliekant visas užduotis. Taip tapo aišku, kad modelio dydis nėra vienintelis veiksnys, leidžiantis geriau suprasti kalbą.

Anot Altmano, kalbos modeliai kenčia nuo kritinių apribojimų. kai kalbama apie optimizavimą. Mokymai būtų tokie brangūs, kad įmonės turėtų eiti į kompromisą tarp tikslumo ir kainos. Dėl to modeliai dažnai būna prastai optimizuoti.

Generalinis direktorius pranešė, kad GPT-3 buvo apmokytas tik vieną kartą, nepaisant kai kurių klaidų, dėl kurių kitais atvejais būtų buvęs perkvalifikuotas. Pranešama, kad dėl šios priežasties „OpenAI“ nusprendė nepritarti dėl neįperkamų išlaidų, o tai neleido tyrėjams rasti geriausio modelio hiperparametrų rinkinio.

Kita didelių mokymo išlaidų pasekmė yra ta, kad modelio elgesio analizė būtų apribota. Remiantis viena ataskaita, kai dirbtinio intelekto tyrėjai padarė išvadą, kad modelio dydis yra svarbiausias kintamasis našumui gerinti, jie neatsižvelgė į mokymo žetonų skaičių, ty į modeliams pateiktų duomenų kiekį. Tam būtų reikėję nepaprastai daug kompiuterinių išteklių. Pranešama, kad technologijų įmonės vadovavosi tyrėjų išvadomis, nes tai buvo geriausia, ką turėjo.

Altmanas teigė, kad GPT-4 naudos daug daugiau skaičiavimų nei jo pirmtakas. Tikimasi, kad „OpenAI“ įgyvendins su optimizavimu susijusias idėjas GPT-4, nors kiek negalima numatyti, nes jos biudžetas nežinomas.

Tačiau pareiškimai apie Altmanas rodo, kad OpenAI turėtų sutelkti dėmesį į kitų kintamųjų, o ne modelio dydžio, optimizavimą.. Radus geriausią hiperparametrų rinkinį, optimalų modelio dydį ir parametrų skaičių, būtų galima neįtikėtinai patobulinti visus etalonus.

Anot analitikų, visos kalbos modelių prognozės žlugs, jei šie metodai bus sujungti į vieną modelį. Altmanas taip pat sakė, kad žmonės nepatikės, kokie geresni modeliai gali būti, nebūtinai didesni. Tai gali reikšti, kad mastelio didinimo pastangos kol kas baigėsi.

Pranešama, kad „OpenAI“ įdėjo daug pastangų sprendžiant AI suderinimo problemą: kaip priversti kalbos modelius sekti žmogaus ketinimus ir laikytis žmogiškųjų vertybių?

Analitikai sako, kad tai ne tik sudėtinga matematinė problema (kaip priversti dirbtinį intelektą tiksliai suprasti, ko mes norime?), bet ir filosofinė (nėra universalaus būdo suderinti DI su žmonėmis, nes žmogaus vertybės skiriasi iš grupės į grupę yra didžiulis ir dažnai prieštaringas).

Pagaliau jei norite sužinoti daugiau apie taigalite kreiptis į pradinį įrašą Šioje nuorodoje.

DesdeLinux

GPT-4: OpenAI natūralios kalbos apdorojimo dirbtinis intelektas gali būti pristatytas vėliau šį semestrą

Palikite komentarą Atšaukti atsakymą