GPT-4: AI za obradu prirodnog jezika OpenAI mogao bi stići na kraju ovog semestra

U maju 2020. OpenAI, AI kompanija koju su suosnivali Elon Musk i Sam Altman, objavila je GPT-3, koji je tada predstavljen kao sjajna neuronska mreža u ovom trenutku. Najsavremeniji jezički model, GPT-3 uključuje 175 milijardi parametara u poređenju sa 1,5 milijardi parametara njegovog prethodnika GPT-2.

GPT-3 pobijedio NLG Turing model (Turing Natural Language Generation) iz Microsofta sa 17 milijardi parametara koji su prethodno držali rekord za najveću neuronsku mrežu. Jezički model je bio zadivljen, kritiziran, pa čak i podvrgnut ispitivanju; također je pronašao nove i zanimljive primjene.

I sada objavljene su glasine da je izdanje GPT-4, sljedeća verzija OpenAI jezičkog modela, mogla bi uskoro doći.

Iako još nije objavljen datum izlaska, OpenAI je dao neke naznake o karakteristikama nasljednika GPT-3, sa kojima bi mnogi mogli očekivati, da GPT-4 ne bi trebao biti veći od GPT-3, ali bi trebao koristiti više računarskih resursa, što će ograničiti njegov utjecaj na okoliš.

Tokom sesije, Altman je to nagovijestio, suprotno uvriježenom mišljenju, GPT-4 neće biti najveći jezički model. Model će nesumnjivo biti veći od prethodnih generacija neuronskih mreža, ali veličina neće biti njegov zaštitni znak.

Prvo, kompanije su shvatile da korišćenje veličine modela kao indikatora za poboljšanje performansi nije jedini ili najbolji način da se to uradi. U 2020., Jared Kaplan i kolege iz OpenAI-a su navodno zaključili da se performanse najviše poboljšavaju kada se povećanja proračunskog budžeta prvenstveno dodijele povećanju broja parametara, nakon odnosa potencijskog zakona. Google, Nvidia, Microsoft, OpenAI, DeepMind i druge kompanije koje razvijaju jezičke modele prihvatile su ove smjernice zdravo za gotovo.

Ali MT-NLG (Megatron-Turing NLG, neuronska mreža koju su prošle godine izgradili Nvidia i Microsoft sa 530 milijardi parametara), ma kako odličan, nije najbolji kada su performanse u pitanju. Zapravo, nije ocijenjen kao najbolji ni u jednoj kategoriji. Manji modeli poput Gophera ili Chinchilla (70 milijardi parametara), samo djelić njihove veličine, bili bi mnogo bolji od MT-NLG-a u svim zadacima. Tako je postalo jasno da veličina modela nije jedini faktor koji vodi ka boljem razumijevanju jezika.

Prema Altmanu, jezički modeli pate od kritičnog ograničenja. kada je u pitanju optimizacija. Obuka bi bila toliko skupa da bi kompanije morale da prave kompromis između tačnosti i cene. To često dovodi do toga da su modeli loše optimizirani.

Izvršni direktor je izvijestio da je GPT-3 obučen samo jednom, uprkos nekim greškama koje bi u drugim slučajevima dovele do prekvalifikacije. Zbog toga se OpenAI navodno odlučio protiv toga zbog nepriuštive cijene, što je spriječilo istraživače da pronađu najbolji skup hiperparametara za model.

Još jedna posljedica visokih troškova obuke je da bi analize ponašanja modela bile ograničene. Prema jednom izvještaju, kada su istraživači AI zaključili da je veličina modela najrelevantnija varijabla za poboljšanje performansi, nisu uzeli u obzir broj tokena za obuku, odnosno količinu podataka dostavljenih modelima. To bi zahtijevalo izuzetne količine računarskih resursa. Tehnološke kompanije su navodno pratile nalaze istraživača jer je to bilo najbolje što su imali.

Altman rekao je da će GPT-4 koristiti mnogo više proračuna od svog prethodnika. Očekuje se da će OpenAI implementirati ideje vezane za optimizaciju u GPT-4, iako se ne može predvidjeti u kojoj mjeri je njegov budžet nepoznat.

Međutim, izjave od Altman pokazuje da bi se OpenAI trebao fokusirati na optimizaciju varijabli osim veličine modela.. Pronalaženje najboljeg skupa hiperparametara, optimalne veličine modela i broja parametara moglo bi dovesti do nevjerovatnih poboljšanja u svim referentnim vrijednostima.

Prema analitičarima, sva predviđanja za jezičke modele će se urušiti ako se ovi pristupi kombinuju u jedan model. Altman je također rekao da ljudi ne bi vjerovali koliko bolji modeli mogu biti a da nisu nužno veći. Možda sugerira da su napori na skaliranju za sada gotovi.

OpenAI je navodno uložio mnogo truda u rješavanje problema usklađivanja umjetne inteligencije: kako natjerati modele jezika da slijede ljudske namjere i pridržavaju se ljudskih vrijednosti?

Analitičari kažu da ovo nije samo težak matematički problem (kako da nateramo AI da shvati tačno šta mi želimo?), već i filozofski (ne postoji univerzalni način da se AI uskladi sa ljudima, budući da je varijabilnost ljudske vrijednosti od grupe do grupe su ogromne i često konfliktne).

Konačno ako ste zainteresirani da saznate više o tomemožete se pozvati na originalni post Na sledećem linku.

DesdeLinux

GPT-4: OpenAI-jeva AI za obradu prirodnog jezika mogla bi stići kasnije ovog semestra

Ostavite komentar Otkaži odgovor