GPT-4: la IA de processament de llenguatge natural d'OpenAI podria arribar a finals d'aquest semestre

El maig del 2020, OpenAI, l'empresa d'IA cofundada per Elon Musk i Sam Altman, va publicar GPT-3, presentada llavors com la gran xarxa neuronal del moment. Un model de llenguatge de darrera generació, GPT-3 inclou 175 mil milions de paràmetres en comparació dels 1,5 mil milions de paràmetres del seu predecessor GPT-2.

GPT-3 va vèncer el model NLG Turing (Turing Natural Language Generation) de Microsoft amb 17 mil milions de paràmetres que anteriorment ostentava el rècord de xarxa neuronal més gran. El model de llenguatge ha estat meravellat, criticat i fins i tot sotmès a escrutini; també ha trobat noves i interessants aplicacions.

I ara s'han donat a conèixer rumors que el llançament de GPT-4, la propera versió del model de llenguatge d'OpenAI, podria estar arribant aviat.

Encara que encara no s'ha anunciat una data de llançament, OpenAI ha donat algunes indicacions sobre les característiques del successor de GPT-3, de manera que molts podrien esperar, que GPT-4 no hauria de ser més gran que GPT-3, però hauria d'usar més recursos computacionals, cosa que limitarà el seu impacte ambiental.

Durant la sessió, Altman va insinuar que, contràriament a la creença popular, GPT-4 no serà el model de llenguatge més gran. Sens dubte, el model serà més gran que les generacions anteriors de xarxes neuronals, però la mida no serà el seu segell distintiu.

En primer lloc, les empreses s'han adonat que utilitzar la mida del model com a indicador per millorar el rendiment no és l'única ni la millor manera de fer-ho. El 2020, Jared Kaplan i els seus col·legues d'OpenAI suposadament van concloure que el rendiment millora més quan els augments del pressupost de còmput s'assignen principalment per augmentar la quantitat de paràmetres, seguint una relació de llei de potència. Google, Nvidia, Microsoft, OpenAI, DeepMind i altres empreses que desenvolupen models de llenguatge han pres aquestes pautes al peu de la lletra.

Però MT-NLG (Megatron-Turing NLG, una xarxa neuronal construïda per Nvidia i Microsoft l'any passat amb 530 mil milions de paràmetres), per gran que sigui, no és la millor quan es tracta de rendiment. De fet, no està qualificat com el millor a cap categoria de referència. Els models més petits, com Gopher o Chinchilla (70 mil milions de paràmetres), amb prou feines una fracció de la seva mida, serien molt millors que MT-NLG en totes les tasques. Així, va quedar clar que la mida del model no és l'únic factor que condueix a una millor comprensió del llenguatge.

Segons Altman, els models de llenguatge pateixen una limitació crítica quan es tracta doptimització. La capacitació seria tan costosa que les empreses s'haurien de comprometre entre la precisió i el cost. Això sovint dóna com a resultat que els models estiguin molt poc optimitzats.

El CEO va informar que GPT-3 es va entrenar només una vegada, malgrat alguns errors que en altres casos haurien portat a una nova capacitació. A causa d'això, segons s'informa, OpenAI va decidir no fer-ho a causa del cost inassequible, cosa que va impedir que els investigadors trobessin el millor conjunt d'hiperparàmetres per al model.

Una altra conseqüència dels alts costos de capacitació és que es restringirien les anàlisis del comportament del model. Segons un informe, quan els investigadors d'IA van concloure que la mida del model era la variable més rellevant per millorar el rendiment, no van considerar la quantitat de tokens d'entrenament, és a dir, la quantitat de dades proporcionades als models. Això hauria requerit quantitats extraordinàries de recursos informàtics. Segons els informes, les empreses tecnològiques van seguir les troballes dels investigadors perquè era el millor que tenien.

Altman va dir que GPT-4 utilitzarà molts més càlculs que el seu predecessor. S'espera que OpenAI implementi idees relacionades amb l'optimització a GPT-4, encara que no es pot predir en quina mesura, ja que se'n desconeix el pressupost.

No obstant això, les declaracions de Altman mostren que OpenAI hauria de centrar-se a optimitzar altres variables a més de la mida del model. Trobar el millor conjunt d'hiperparàmetres, la mida òptima del model i la quantitat de paràmetres podria conduir a millores increïbles a tots els punts de referència.

Segons els analistes, totes les prediccions per als models de llenguatge s'ensorraran si aquests enfocaments es combinen en un sol model. Altman també va dir que la gent no creuria el millor que poden ser els models sense ser necessàriament més grans. Podeu suggerir que els esforços d'escalament han acabat per ara.

Segons informa, OpenAI va posar molt esforç a resoldre el problema de l'alineació de la IA: com fer que els models de llenguatge segueixin les intencions humanes i s'adhereixin als valors humans?

Els analistes diuen que aquest no és només un problema matemàtic difícil (com fem que la IA entengui exactament el que volem?), sinó també filosòficament (no hi ha una forma universal d'alinear la IA amb els humans, ja que la variabilitat dels valors humans de grup a grup és enorme i, sovint, conflictiu).

Finalment si estàs interessat en poder conèixer més a l'respecte, pots consultar la publicació original en el següent enllaç.

DesdeLinux

GPT-4: la IA de processament de llenguatge natural d'OpenAI podria arribar a finals d'aquest semestre

Deixa el teu comentari Cancel lar la resposta