GPT-4: la IA de procesamiento de lenguaje natural de OpenAI podría llegar a finales de este semestre

Noong Mayo 2020, ang OpenAI, ang kumpanya ng AI na itinatag nina Elon Musk at Sam Altman, ay nag-publish ng GPT-3, pagkatapos ay ipinakita bilang ang mahusay na neural network ng sandaling ito. Isang state-of-the-art na modelo ng wika, Kasama sa GPT-3 ang 175 bilyong mga parameter kumpara sa 1,5 bilyong parameter ng hinalinhan nitong GPT-2.

GPT-3 talunin ang modelo ng NLG Turing (Turing Natural Language Generation) mula sa Microsoft na may 17 bilyong parameter na dating hawak ang record para sa pinakamalaking neural network. Ang modelo ng wika ay humanga, binatikos at isinailalim pa sa pagsisiyasat; nakahanap din ito ng bago at kawili-wiling mga aplikasyon.

At ngayon Ang mga alingawngaw ay inilabas na ang paglabas ng GPT-4, ang susunod na bersyon ng modelo ng wikang OpenAI, ay maaaring paparating na.

Bagaman wala pang inihayag na petsa ng paglabas, Nagbigay ang OpenAI ng ilang indikasyon tungkol sa mga katangian ng kahalili ng GPT-3, na maaaring asahan ng marami, na ang GPT-4 ay hindi dapat mas malaki kaysa sa GPT-3, ngunit dapat gumamit ng higit pang mga mapagkukunang computational, na maglilimita sa epekto nito sa kapaligiran.

Sa panahon ng sesyon, Ipinahiwatig iyon ni Altman, salungat sa popular na paniniwala, Ang GPT-4 ay hindi ang pinakamalaking modelo ng wika. Ang modelo ay walang alinlangan na mas malaki kaysa sa mga nakaraang henerasyon ng mga neural network, ngunit ang laki ay hindi magiging tanda nito.

Una, napagtanto ng mga kumpanya na ang paggamit ng laki ng modelo bilang isang tagapagpahiwatig upang mapabuti ang pagganap ay hindi lamang o pinakamahusay na paraan upang gawin ito. Noong 2020, si Jared Kaplan at ang kanyang mga kasamahan sa OpenAI ay naiulat na napagpasyahan na ang pagganap ay higit na bumubuti kapag ang mga pagtaas sa compute na badyet ay pangunahing inilalaan sa pagtaas ng bilang ng mga parameter, kasunod ng isang relasyon sa kapangyarihan-batas. Ginamit ng Google, Nvidia, Microsoft, OpenAI, DeepMind, at iba pang kumpanya na bumuo ng mga modelo ng wika ang mga alituntuning ito sa halaga ng mukha.

Ngunit ang MT-NLG (Megatron-Turing NLG, isang neural network na binuo ng Nvidia at Microsoft noong nakaraang taon na may 530 bilyong mga parameter), gayunpaman, ay hindi ang pinakamahusay pagdating sa pagganap. Sa katunayan, hindi ito na-rate na pinakamahusay sa anumang kategorya ng benchmark. Ang mas maliliit na modelo tulad ng Gopher o Chinchilla (70 bilyong mga parameter), isang bahagi lamang ng kanilang laki, ay magiging mas mahusay kaysa sa MT-NLG sa lahat ng mga gawain. Kaya, naging malinaw na ang laki ng modelo ay hindi lamang ang kadahilanan na humahantong sa isang mas mahusay na pag-unawa sa wika.

Ayon kay Altman, ang mga modelo ng wika ay dumaranas ng kritikal na limitasyon. pagdating sa optimization. Ang pagsasanay ay magiging napakamahal na ang mga kumpanya ay kailangang ikompromiso sa pagitan ng katumpakan at gastos. Madalas itong nagreresulta sa mga modelo na hindi mahusay na na-optimize.

Iniulat ng CEO na isang beses lang sinanay ang GPT-3, sa kabila ng ilang mga pagkakamali na sa ibang mga kaso ay maaaring humantong sa muling pagsasanay. Dahil dito, ang OpenAI ay naiulat na nagpasya laban dito dahil sa hindi abot-kayang gastos, na pumigil sa mga mananaliksik sa paghahanap ng pinakamahusay na hanay ng mga hyperparameter para sa modelo.

Ang isa pang kahihinatnan ng mataas na gastos sa pagsasanay ay ang pag-aaral ng pag-uugali ng modelo ay paghihigpitan. Ayon sa isang ulat, nang napagpasyahan ng mga mananaliksik ng AI na ang laki ng modelo ay ang pinaka-kaugnay na variable para sa pagpapabuti ng pagganap, hindi nila isinasaalang-alang ang bilang ng mga token ng pagsasanay, iyon ay, ang dami ng data na ibinigay sa mga modelo. Nangangailangan ito ng hindi pangkaraniwang halaga ng mga mapagkukunan sa pag-compute. Ang mga tech na kumpanya ay naiulat na sinunod ang mga natuklasan ng mga mananaliksik dahil ito ang pinakamahusay na mayroon sila.

Altman sinabi na ang GPT-4 ay gagamit ng mas maraming kalkulasyon kaysa sa hinalinhan nito. Inaasahang magpapatupad ang OpenAI ng mga ideyang nauugnay sa pag-optimize sa GPT-4, bagama't hanggang saan ang hindi mahulaan dahil hindi alam ang badyet nito.

Gayunpaman, ang mga pahayag ng Ipinakita ni Altman na dapat tumuon ang OpenAI sa pag-optimize ng mga variable maliban sa laki ng modelo.. Ang paghahanap ng pinakamahusay na hanay ng mga hyperparameter, pinakamainam na laki ng modelo, at bilang ng mga parameter ay maaaring humantong sa hindi kapani-paniwalang mga pagpapabuti sa lahat ng mga benchmark.

Ayon sa mga analyst, ang lahat ng mga hula para sa mga modelo ng wika ay babagsak kung ang mga diskarte na ito ay pinagsama sa isang solong modelo. Sinabi rin ni Altman na hindi maniniwala ang mga tao kung gaano kahusay ang mga modelo nang hindi kinakailangang mas malaki. Maaaring iminumungkahi nito na ang mga pagsusumikap sa pag-scale ay tapos na sa ngayon.

Ang OpenAI ay iniulat na naglagay ng maraming pagsisikap sa paglutas ng problema sa AI alignment: paano gagawing sundin ng mga modelo ng wika ang mga intensyon ng tao at sumunod sa mga halaga ng tao?

Sinasabi ng mga analyst na ito ay hindi lamang isang mahirap na problema sa matematika (paano natin gagawing maunawaan ng AI kung ano mismo ang gusto natin?), ngunit isa ring pilosopiko (walang unibersal na paraan upang ihanay ang AI sa mga tao, dahil ang pagkakaiba-iba ng mga halaga ng tao mula sa grupo hanggang sa grupo ay napakalaki at kadalasang nagkakasalungatan).

Sa wakas kung interesado kang malaman ang tungkol ditomaaari kang sumangguni sa orihinal na post Sa sumusunod na link.

DesdeLinux

GPT-4: Ang natural na pagpoproseso ng wika ng OpenAI na AI ay maaaring dumating sa huling bahagi ng semester na ito

Iwanan ang iyong puna Ikansela ang tugon