GPT-4 : l'IA de traitement du langage naturel d'OpenAI pourrait arriver à la fin de ce semestre

En mai 2020, OpenAI, la société d'IA co-fondée par Elon Musk et Sam Altman, publiait GPT-3, alors présenté comme le grand réseau de neurones du moment. Un modèle de langage de pointe, GPT-3 comprend 175 milliards de paramètres par rapport aux 1,5 milliard de paramètres de son prédécesseur GPT-2.

GPT-3 battre le modèle NLG Turing (Turing Natural Language Generation) de Microsoft avec 17 milliards de paramètres qui détenaient auparavant le record du plus grand réseau de neurones. Le modèle linguistique a été émerveillé, critiqué et même passé au crible ; il a également trouvé des applications nouvelles et intéressantes.

Et maintenant des rumeurs ont circulé selon lesquelles la sortie de GPT-4, la prochaine version du modèle de langage OpenAI, pourrait bientôt arriver.

Bien que aucune date de sortie n'a encore été annoncée, OpenAI a donné quelques indications sur les caractéristiques du successeur de GPT-3, avec lesquelles beaucoup pourraient s'attendre à ce que GPT-4 ne soit pas plus grand que GPT-3, mais utilise plus de ressources de calcul, ce qui limitera son impact environnemental.

Pendant la séance, Altman a laissé entendre que, contrairement aux idées reçues, GPT-4 ne sera pas le plus grand modèle de langage. Le modèle sera sans aucun doute plus grand que les générations précédentes de réseaux de neurones, mais la taille ne sera pas sa marque de fabrique.

Premièrement, les entreprises ont réalisé que l'utilisation de la taille du modèle comme indicateur pour améliorer les performances n'est pas la seule ou la meilleure façon de le faire. En 2020, Jared Kaplan et ses collègues d'OpenAI auraient conclu que les performances s'améliorent le plus lorsque les augmentations du budget de calcul sont principalement allouées à l'augmentation du nombre de paramètres, suivant une relation de loi de puissance. Google, Nvidia, Microsoft, OpenAI, DeepMind et d'autres sociétés qui développent des modèles de langage ont pris ces directives au pied de la lettre.

Mais MT-NLG (Megatron-Turing NLG, un réseau de neurones construit par Nvidia et Microsoft l'année dernière avec 530 milliards de paramètres), aussi génial soit-il, n'est pas le meilleur en termes de performances. En fait, il n'est pas classé le meilleur dans aucune catégorie de référence. Des modèles plus petits comme Gopher ou Chinchilla (70 milliards de paramètres), juste une fraction de leur taille, seraient bien meilleurs que MT-NLG dans toutes les tâches. Ainsi, il est devenu clair que la taille du modèle n'est pas le seul facteur qui conduit à une meilleure compréhension de la langue.

Selon Altman, les modèles de langage souffrent d'une limitation critique. lorsqu'il s'agit d'optimisation. La formation serait si coûteuse que les entreprises devraient faire un compromis entre précision et coût. Cela se traduit souvent par des modèles mal optimisés.

Le PDG a indiqué que GPT-3 n'avait été formé qu'une seule fois, malgré quelques erreurs qui, dans d'autres cas, auraient conduit à un recyclage. Pour cette raison, OpenAI aurait décidé de ne pas le faire en raison d'un coût inabordable, ce qui a empêché les chercheurs de trouver le meilleur ensemble d'hyperparamètres pour le modèle.

Une autre conséquence des coûts de formation élevés est que les analyses du comportement du modèle seraient restreintes. Selon un rapport, lorsque les chercheurs en intelligence artificielle ont conclu que la taille du modèle était la variable la plus pertinente pour améliorer les performances, ils n'ont pas pris en compte le nombre de jetons d'entraînement, c'est-à-dire la quantité de données fournies aux modèles. Cela aurait nécessité des quantités extraordinaires de ressources informatiques. Les entreprises technologiques auraient suivi les découvertes des chercheurs parce que c'était ce qu'elles avaient de mieux.

Altman a déclaré que GPT-4 utilisera beaucoup plus de calculs que son prédécesseur. OpenAI devrait mettre en œuvre des idées liées à l'optimisation dans GPT-4, bien qu'il soit impossible de prédire dans quelle mesure car son budget est inconnu.

Cependant, les déclarations de Altman montre qu'OpenAI devrait se concentrer sur l'optimisation de variables autres que la taille du modèle.. Trouver le meilleur ensemble d'hyperparamètres, la taille de modèle optimale et le nombre de paramètres pourrait conduire à des améliorations incroyables dans tous les benchmarks.

Selon les analystes, toutes les prédictions pour les modèles de langage s'effondreront si ces approches sont combinées en un seul modèle. Altman a également déclaré que les gens ne croiraient pas à quel point les modèles peuvent être meilleurs sans nécessairement être plus gros. Cela peut suggérer que les efforts de mise à l'échelle sont terminés pour le moment.

OpenAI aurait déployé beaucoup d'efforts pour résoudre le problème d'alignement de l'IA : comment faire en sorte que les modèles de langage suivent les intentions humaines et adhèrent aux valeurs humaines ?

Les analystes disent qu'il ne s'agit pas seulement d'un problème mathématique difficile (comment faire en sorte que l'IA comprenne exactement ce que nous voulons ?), mais aussi d'un problème philosophique (il n'existe pas de moyen universel d'aligner l'IA sur les humains, car la variabilité de la valeurs humaines d'un groupe à l'autre est énorme et souvent contradictoire).

Enfin si vous souhaitez en savoir plustu peux te référer au message d'origine dans le lien suivant.

DesdeLinux

GPT-4 : l'IA de traitement du langage naturel d'OpenAI pourrait arriver plus tard ce semestre

Laisser un commentaire Annuler la réponse