GPT-4: IA de procesare a limbajului natural de la OpenAI ar putea ajunge la sfârșitul acestui semestru

În mai 2020, OpenAI, compania de inteligență artificială co-fondată de Elon Musk și Sam Altman, a publicat GPT-3, prezentat apoi drept marea rețea neuronală a momentului. Un model de limbaj de ultimă generație, GPT-3 include 175 de miliarde de parametri comparativ cu cei 1,5 miliarde de parametri ai predecesorului său GPT-2.

GPT-3 bate modelul NLG Turing (Turing Natural Language Generation) de la Microsoft cu 17 miliarde de parametri care dețineau anterior recordul pentru cea mai mare rețea neuronală. Modelul de limbă a fost mirat, criticat și chiar supus controlului; a găsit și aplicații noi și interesante.

Și acum au fost lansate zvonuri că lansarea lui GPT-4, următoarea versiune a modelului de limbaj OpenAI, ar putea veni în curând.

Deși încă nu a fost anunțată o dată de lansare, OpenAI a dat câteva indicații despre caracteristicile succesorului lui GPT-3, cu care mulți s-ar putea aștepta, ca GPT-4 să nu fie mai mare decât GPT-3, ci să folosească mai multe resurse de calcul, ceea ce îi va limita impactul asupra mediului.

În timpul ședinței, Altman a sugerat asta, contrar credinței populare, GPT-4 nu va fi cel mai mare model de limbă. Modelul va fi, fără îndoială, mai mare decât generațiile anterioare de rețele neuronale, dar dimensiunea nu va fi semnul său distinctiv.

În primul rând, companiile și-au dat seama că utilizarea dimensiunii modelului ca indicator pentru îmbunătățirea performanței nu este singura sau cea mai bună modalitate de a face acest lucru. În 2020, Jared Kaplan și colegii săi OpenAI au ajuns la concluzia că performanța se îmbunătățește cel mai mult atunci când creșterile bugetului de calcul sunt alocate în principal creșterii numărului de parametri, în urma unei relații putere-lege. Google, Nvidia, Microsoft, OpenAI, DeepMind și alte companii care dezvoltă modele lingvistice au luat aceste linii directoare la valoarea nominală.

Dar MT-NLG (Megatron-Turing NLG, o rețea neuronală construită de Nvidia și Microsoft anul trecut cu 530 de miliarde de parametri), oricât de mare este, nu este cea mai bună când vine vorba de performanță. De fapt, nu este cel mai bine evaluat din nicio categorie de referință. Modele mai mici precum Gopher sau Chinchilla (70 de miliarde de parametri), doar o fracțiune din dimensiunea lor, ar fi mult mai bune decât MT-NLG în toate sarcinile. Astfel, a devenit clar că dimensiunea modelului nu este singurul factor care duce la o mai bună înțelegere a limbajului.

Potrivit lui Altman, modelele de limbaj suferă de o limitare critică. când vine vorba de optimizare. Instruirea ar fi atât de costisitoare încât companiile ar trebui să facă compromisuri între acuratețe și cost. Acest lucru duce adesea la optimizarea slabă a modelelor.

CEO-ul a raportat că GPT-3 a fost antrenat o singură dată, în ciuda unor erori care în alte cazuri ar fi dus la recalificare. Din această cauză, OpenAI s-a decis împotriva acestui lucru din cauza costurilor inaccesibile, ceea ce i-a împiedicat pe cercetători să găsească cel mai bun set de hiperparametri pentru model.

O altă consecință a costurilor ridicate de formare este că analizele comportamentului modelului ar fi restricționate. Potrivit unui raport, atunci când cercetătorii AI au concluzionat că dimensiunea modelului este cea mai relevantă variabilă pentru îmbunătățirea performanței, ei nu au luat în considerare numărul de jetoane de antrenament, adică cantitatea de date furnizată modelelor. Acest lucru ar fi necesitat cantități extraordinare de resurse de calcul. Companiile tehnologice au urmat descoperirile cercetătorilor pentru că erau cele mai bune pe care le aveau.

Altman a spus că GPT-4 va folosi mult mai multe calcule decât predecesorul său. Se așteaptă ca OpenAI să implementeze idei legate de optimizare în GPT-4, deși în ce măsură nu poate fi prezis, deoarece bugetul său este necunoscut.

Cu toate acestea, declarațiile lui Altman arată că OpenAI ar trebui să se concentreze pe optimizarea variabilelor, altele decât dimensiunea modelului.. Găsirea celui mai bun set de hiperparametri, a dimensiunii optime a modelului și a numărului de parametri ar putea duce la îmbunătățiri incredibile pentru toate benchmark-urile.

Potrivit analiștilor, toate predicțiile pentru modelele lingvistice se vor prăbuși dacă aceste abordări sunt combinate într-un singur model. Altman a mai spus că oamenii nu ar crede cât de mult mai bune pot fi modelele fără a fi neapărat mai mari. Poate sugera că eforturile de extindere s-au încheiat pentru moment.

Se pare că OpenAI a depus mult efort în rezolvarea problemei de aliniere a AI: cum să faceți ca modelele de limbaj să urmeze intențiile umane și să adere la valorile umane?

Analistii spun ca aceasta nu este doar o problema matematica dificila (cum facem ca AI sa inteleaga exact ceea ce dorim?), ci si una filozofica (nu exista o modalitate universala de a alinia AI cu oamenii, din moment ce variabilitatea valorilor umane de la grup la grup este uriaș și adesea conflictual).

În cele din urmă dacă sunteți interesat să aflați mai multe despre astate poți referi la postarea inițială În următorul link.

DesdeLinux

GPT-4: IA de procesare a limbajului natural de la OpenAI ar putea ajunge mai târziu în acest semestru

Lasă comentariul tău Anulați răspunsul