GPT-4: la IA de procesamiento de lenguaje natural de OpenAI podrĂ­a llegar a finales de este semestre

En mayo de 2020, OpenAI, la empresa de IA cofundada por Elon Musk y Sam Altman, publicĂ³ GPT-3, presentada entonces como la gran red neuronal del momento. Un modelo de lenguaje de Ăºltima generaciĂ³n, GPT-3 incluye 175 mil millones de parĂ¡metros en comparaciĂ³n con los 1,5 mil millones de parĂ¡metros de su predecesor GPT-2.

GPT-3 venciĂ³ al modelo NLG Turing (Turing Natural Language Generation) de Microsoft con 17 mil millones de parĂ¡metros que anteriormente ostentaba el rĂ©cord de red neuronal mĂ¡s grande. El modelo de lenguaje ha sido maravillado, criticado e incluso sometido a escrutinio; tambiĂ©n ha encontrado nuevas e interesantes aplicaciones.

Y ahora se han dado a conocer rumores de que el lanzamiento de GPT-4, la prĂ³xima versiĂ³n del modelo de lenguaje de OpenAI, podrĂ­a estar llegando pronto.

Aunque todavĂ­a no se ha anunciado una fecha de lanzamiento, OpenAI ha dado algunas indicaciones sobre las caracterĂ­sticas del sucesor de GPT-3, con lo cual muchos podrĂ­an esperar, que GPT-4 no deberĂ­a ser mĂ¡s grande que GPT-3, pero deberĂ­a usar mĂ¡s recursos computacionales, lo que limitarĂ¡ su impacto ambiental.

Durante la sesiĂ³n, Altman insinuĂ³ que, contrariamente a la creencia popular, GPT-4 no serĂ¡ el modelo de lenguaje mĂ¡s grande. Sin duda, el modelo serĂ¡ mĂ¡s grande que las generaciones anteriores de redes neuronales, pero el tamaño no serĂ¡ su sello distintivo.

En primer lugar, las empresas se han dado cuenta de que utilizar el tamaño del modelo como indicador para mejorar el rendimiento no es la Ăºnica ni la mejor manera de hacerlo. En 2020, Jared Kaplan y sus colegas de OpenAI supuestamente concluyeron que el rendimiento mejora mĂ¡s cuando los aumentos en el presupuesto de cĂ³mputo se asignan principalmente para aumentar la cantidad de parĂ¡metros, siguiendo una relaciĂ³n de ley de potencia. Google, Nvidia, Microsoft, OpenAI, DeepMind y otras empresas que desarrollan modelos de lenguaje han tomado estas pautas al pie de la letra.

Pero MT-NLG (Megatron-Turing NLG, una red neuronal construida por Nvidia y Microsoft el año pasado con 530 mil millones de parĂ¡metros), por grande que sea, no es la mejor cuando se trata de rendimiento. De hecho, no estĂ¡ calificado como el mejor en ninguna categorĂ­a de referencia. Los modelos mĂ¡s pequeños, como Gopher o Chinchilla (70 mil millones de parĂ¡metros), apenas una fracciĂ³n de su tamaño, serĂ­an mucho mejores que MT-NLG en todas las tareas. AsĂ­, quedĂ³ claro que el tamaño del modelo no es el Ăºnico factor que conduce a una mejor comprensiĂ³n del lenguaje.

SegĂºn Altman, los modelos de lenguaje sufren una limitaciĂ³n crĂ­tica cuando se trata de optimizaciĂ³n. La capacitaciĂ³n serĂ­a tan costosa que las empresas tendrĂ­an que comprometerse entre la precisiĂ³n y el costo. Esto a menudo da como resultado que los modelos estĂ©n muy poco optimizados.

El CEO informĂ³ que GPT-3 se entrenĂ³ solo una vez, a pesar de algunos errores que en otros casos habrĂ­an llevado a una nueva capacitaciĂ³n. Debido a esto, segĂºn se informa, OpenAI decidiĂ³ no hacerlo debido al costo inasequible, lo que impidiĂ³ que los investigadores encontraran el mejor conjunto de hiperparĂ¡metros para el modelo.

Otra consecuencia de los altos costos de capacitaciĂ³n es que se restringirĂ­an los anĂ¡lisis del comportamiento del modelo. SegĂºn un informe, cuando los investigadores de IA concluyeron que el tamaño del modelo era la variable mĂ¡s relevante para mejorar el rendimiento, no consideraron la cantidad de tokens de entrenamiento, es decir, la cantidad de datos proporcionados a los modelos. Esto habrĂ­a requerido cantidades extraordinarias de recursos informĂ¡ticos. SegĂºn los informes, las empresas tecnolĂ³gicas siguieron los hallazgos de los investigadores porque era lo mejor que tenĂ­an.

Altman dijo que GPT-4 utilizarĂ¡ muchos mĂ¡s cĂ¡lculos que su predecesor. Se espera que OpenAI implemente ideas relacionadas con la optimizaciĂ³n en GPT-4, aunque no se puede predecir en quĂ© medida, ya que se desconoce su presupuesto.

Sin embargo, las declaraciones de Altman muestran que OpenAI deberĂ­a centrarse en optimizar otras variables ademĂ¡s del tamaño del modelo. Encontrar el mejor conjunto de hiperparĂ¡metros, el tamaño Ă³ptimo del modelo y la cantidad de parĂ¡metros podrĂ­a conducir a mejoras increĂ­bles en todos los puntos de referencia.

SegĂºn los analistas, todas las predicciones para los modelos de lenguaje se derrumbarĂ¡n si estos enfoques se combinan en un solo modelo. Altman tambiĂ©n dijo que la gente no creerĂ­a lo mejores que pueden ser los modelos sin ser necesariamente mĂ¡s grandes. Puede estar sugiriendo que los esfuerzos de escalamiento han terminado por ahora.

SegĂºn se informa, OpenAI puso mucho esfuerzo en resolver el problema de la alineaciĂ³n de la IA: ¿cĂ³mo hacer que los modelos de lenguaje sigan las intenciones humanas y se adhieran a los valores humanos?

Los analistas dicen que este no es solo un problema matemĂ¡tico difĂ­cil (¿cĂ³mo hacemos que la IA entienda exactamente lo que queremos?), sino tambiĂ©n filosĂ³ficamente (no existe una forma universal de alinear la IA con los humanos, ya que la variabilidad de los valores humanos de grupo a grupo es enorme y, a menudo, conflictivo).

Finalmente si estĂ¡s interesado en poder conocer mĂ¡s al respecto, puedes consultar la publicaciĂ³n original en el siguiente enlace.