PolyCoder, un code open source générant une IA qui pourrait surpasser Codex 

Auteur : @Laurent - Fotolia.com

Actuellement, Nous avons commencé à voir une augmentation de les différentes solutions qu'ils commencent à proposer par rapport à la génération de code à l'aide de l'intelligence artificielle (IA) et c'est que le domaine du traitement du langage naturel (NLP) a ouvert la voie à une série d'IA génératrices de code dans divers langages de programmation.

Desquels on peut citer par exemple GitHub Copilot, AlphaCode et Codex et à laquelle nous pouvons maintenant ajouter une nouvelle solution de la main du chercheurs à l'Université Carnegie Mellon qui récemment introduit "PolyCoder", un générateur de code basé sur le modèle de langage GPT-2 d'OpenAI qui a été formé sur une base de données de code de 249 Go dans 12 langages de programmation.

À propos de PolyCoder

Les auteurs de PolyCoder affirment qu'il est capable d'écrire C avec plus de précision que n'importe quel modèle connu, y compris Codex.

Le code générateur d'IA, peut écrire du code source dans différents langages de programmation Dès le départ, il promet de réduire les coûts de développement de logiciels tout en permettant aux développeurs de se concentrer sur des tâches moins répétitives et créatives.

PolyCoder a été alimenté par des données provenant de divers référentiels GitHub, couvrant 12 langages de programmation populaires : C, C#, C++, Go, Java, JavaScript, PHP, Python, Ruby, Rust, Scala et TypeScript.

L'ensemble de données non filtrées totalisait 631 Go de données et 38,9 millions de fichiers. L'équipe a dit que a choisi de former PolyCoder avec GPT-2 en raison de contraintes budgétaires. PolyCoder est disponible en open source, et les chercheurs espèrent qu'il pourra démocratiser la recherche dans le domaine de la génération de code d'IA, qui jusqu'à présent était dominée par des entreprises bien financées.

Les chercheurs pensent que PolyCoder il fonctionne mieux que les autres modèles pour générer du code en langage C. Cependant, Codex l'a toujours surpassé dans d'autres langues. "PolyCoder surpasse considérablement Codex et tous les autres modèles en langage C.

«Lorsque Copilot est sorti sur GitHub l'été dernier, il est devenu clair que ces très grands modèles de code de langage peuvent être très utiles pour aider les développeurs et augmenter leur productivité. Mais aucun modèle, même proche de cette échelle, n'était accessible au public", ont déclaré les chercheurs à VentureBeat par e-mail. "Alors [PolyCoder] a commencé avec Vincent essayant de déterminer quel était le plus grand modèle qui pouvait être formé sur notre serveur de laboratoire, qui a fini par être de 2700 milliards de paramètres… et ce modèle était une ligue en avance sur les autres modèles orientés code que nous avions. .. étaient accessibles au public à l'époque.

En comparant uniquement les modèles open source, PolyCoder surpasse le modèle GPT-Neo 2.7B de taille similaire en C, JavaScript, Rust, Scala et TypeScript." ils soulignent "Dans les 11 autres langues, tous les autres modèles open source, y compris le nôtre, sont nettement pires (plus grande perplexité) que Codex", ont ajouté les chercheurs de la CMU.

Avec cela, PolyCoder se positionne comme une solution très intéressante, puisque si des laboratoires de recherche comme OpenAI d'Elon Musk et DeepMind d'Alphabet ont développé une puissante IA génératrice de code, bon nombre des systèmes les plus performants ne sont pas disponibles en open source. Les entreprises à faibles revenus n'y ont pas accès et cette situation limite leurs recherches sur le terrain.

Par exemple, les données d'entraînement du Codex OpenAI, qui alimente la fonctionnalité Copilot de GitHub, n'ont pas été rendues publiques, empêchant les chercheurs d'affiner le modèle d'IA ou d'en étudier certains aspects, comme l'interopérabilité.

"Les grandes entreprises technologiques ne publient pas publiquement leurs modèles, ce qui freine vraiment la recherche scientifique et la démocratisation de ces grands modèles de code de langage", ont déclaré les chercheurs. « Dans une certaine mesure, nous espérons que nos efforts open source convaincront les autres de faire de même. Mais dans l'ensemble, la communauté devrait être en mesure de former ces modèles par elle-même. Notre modèle a repoussé la limite de ce que vous pouvez former sur un seul serveur - tout ce qui est plus grand nécessite un pool de serveurs, ce qui augmente considérablement le coût.

Enfin si vous souhaitez en savoir plus, vous pouvez vérifier les détails dans le lien suivant


Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont marqués avec *

*

*

  1. Responsable des données: Miguel Ángel Gatón
  2. Finalité des données: Contrôle du SPAM, gestion des commentaires.
  3. Légitimation: votre consentement
  4. Communication des données: Les données ne seront pas communiquées à des tiers sauf obligation légale.
  5. Stockage des données: base de données hébergée par Occentus Networks (EU)
  6. Droits: à tout moment, vous pouvez limiter, récupérer et supprimer vos informations.