GPT-4: la IA de procesamiento de lenguaje natural de OpenAI podría llegar a finales de este semestre

U svibnju 2020. OpenAI, AI tvrtka koju su suosnivali Elon Musk i Sam Altman, objavila je GPT-3, koji je tada predstavljen kao sjajna neuronska mreža tog trenutka. Najsuvremeniji jezični model, GPT-3 uključuje 175 milijardi parametara u usporedbi s 1,5 milijardi parametara svog prethodnika GPT-2.

GPT-3 pobijedio NLG Turingov model (Turing Natural Language Generation) iz Microsofta sa 17 milijardi parametara koji su prethodno držali rekord za najveću neuronsku mrežu. Jezični model bio je zadivljen, kritiziran, pa čak i podvrgnut preispitivanju; također je pronašao nove i zanimljive primjene.

A sada objavljene su glasine da je izdanje GPT-4, sljedeća verzija jezičnog modela OpenAI, uskoro bi mogla doći.

Iako još nije objavljen datum izlaska, OpenAI je dao neke naznake o karakteristikama nasljednika GPT-3, s kojima bi mnogi mogli očekivati, da GPT-4 ne bi trebao biti veći od GPT-3, ali bi trebao koristiti više računalnih resursa, što će ograničiti njegov utjecaj na okoliš.

Tijekom sjednice, Altman je to dao naslutiti, suprotno uvriježenom mišljenju, GPT-4 neće biti najveći jezični model. Model će nesumnjivo biti veći od prethodnih generacija neuronskih mreža, ali veličina neće biti njegov zaštitni znak.

Prvo, tvrtke su shvatile da korištenje veličine modela kao pokazatelja za poboljšanje performansi nije jedini ili najbolji način za to. U 2020. Jared Kaplan i njegovi kolege iz OpenAI-ja su navodno zaključili da se izvedba najviše poboljšava kada se povećanje proračunskog proračuna prvenstveno dodijeli povećanju broja parametara, nakon odnosa potencijskog zakona. Google, Nvidia, Microsoft, OpenAI, DeepMind i druge tvrtke koje razvijaju jezične modele prihvatile su ove smjernice po nominalnoj vrijednosti.

Ali MT-NLG (Megatron-Turing NLG, neuronska mreža koju su prošle godine izgradili Nvidia i Microsoft s 530 milijardi parametara), ma kako je sjajan, nije najbolji kada su performanse u pitanju. Zapravo, nije ocijenjen najboljim ni u jednoj kategoriji mjerila. Manji modeli poput Gophera ili Chinchilla (70 milijardi parametara), samo djelić njihove veličine, bili bi puno bolji od MT-NLG-a u svim zadacima. Tako je postalo jasno da veličina modela nije jedini čimbenik koji vodi boljem razumijevanju jezika.

Prema Altmanu, jezični modeli pate od kritičnog ograničenja. kada je u pitanju optimizacija. Obuka bi bila toliko skupa da bi tvrtke morale napraviti kompromis između točnosti i cijene. To često rezultira lošom optimizacijom modela.

Izvršni direktor izvijestio je da je GPT-3 obučen samo jednom, unatoč nekim pogreškama koje bi u drugim slučajevima dovele do prekvalifikacije. Zbog toga se OpenAI navodno odlučio protiv toga zbog nepristupačne cijene, što je spriječilo istraživače da pronađu najbolji skup hiperparametara za model.

Još jedna posljedica visokih troškova obuke je da bi analize ponašanja modela bile ograničene. Prema jednom izvješću, kada su istraživači umjetne inteligencije zaključili da je veličina modela najrelevantnija varijabla za poboljšanje performansi, nisu uzeli u obzir broj tokena za obuku, odnosno količinu podataka dostavljenih modelima. To bi zahtijevalo izvanredne količine računalnih resursa. Tehnološke tvrtke navodno su slijedile nalaze istraživača jer je to bilo najbolje što su imali.

Altman rekao je da će GPT-4 koristiti mnogo više izračuna od svog prethodnika. Očekuje se da će OpenAI implementirati ideje vezane za optimizaciju u GPT-4, iako se u kojoj mjeri ne može predvidjeti jer je njegov proračun nepoznat.

Međutim, izjave od Altman pokazuju da bi se OpenAI trebao usredotočiti na optimizaciju varijabli osim veličine modela.. Pronalaženje najboljeg skupa hiperparametara, optimalne veličine modela i broja parametara moglo bi dovesti do nevjerojatnih poboljšanja u svim referentnim vrijednostima.

Prema analitičarima, sva predviđanja za jezične modele će se urušiti ako se ti pristupi kombiniraju u jedan model. Altman je također rekao da ljudi ne bi vjerovali koliko bolji modeli mogu biti, a da nisu nužno veći. Možda sugerira da su napori skaliranja za sada gotovi.

OpenAI je navodno uložio mnogo truda u rješavanje problema usklađivanja umjetne inteligencije: kako napraviti da jezični modeli slijede ljudske namjere i pridržavaju se ljudskih vrijednosti?

Analitičari kažu da ovo nije samo težak matematički problem (kako natjerati AI da razumije točno ono što želimo?), već i filozofski (ne postoji univerzalni način da se AI uskladi s ljudima, budući da je varijabilnost ljudske vrijednosti od grupe do grupe su ogromne i često sukobljene).

Konačno ako vas zanima više o tomemožete se pozvati na izvorni post U sljedećem linku.

DesdeLinux

GPT-4: OpenAI-jeva umjetna inteligencija za obradu prirodnog jezika mogla bi stići kasnije ovog semestra

Ostavite svoj komentar Otkaži odgovor