PolyCoder, een open source code die AI genereert die beter zou kunnen presteren dan Codex 

Auteur: @ Laurent - Fotolia.com

nog, We beginnen een toename te zien in de verschillende oplossingen die beginnen te bieden met betrekking tot de code generatie met behulp van kunstmatige intelligentie (AI) en is dat het gebied van natuurlijke taalverwerking (NLP) de weg heeft geëffend voor een reeks AI-codegeneratoren in verschillende programmeertalen.

Van welke we kunnen bijvoorbeeld GitHub Copilot, AlphaCode en Codex uitlichten en waaraan we nu een nieuwe oplossing kunnen toevoegen van de hand van de onderzoekers aan de Carnegie Mellon University die onlangs geïntroduceerde "PolyCoder", een codegenerator gebaseerd op het OpenAI GPT-2-taalmodel dat is getraind op een codedatabase van 249 GB in 12 programmeertalen.

Over PolyCoder

De auteurs van PolyCoder beweren van wel in staat om C nauwkeuriger te schrijven dan enig bekend model, inclusief Codex.

De code genererende AI, kan broncode schrijven in verschillende programmeertalen van een aankondiging belooft het de kosten voor softwareontwikkeling te verlagen, terwijl ontwikkelaars zich kunnen concentreren op minder repetitieve, creatieve taken.

PolyCoder is getraind met behulp van gegevens uit verschillende GitHub-repository's, verspreid over 12 populaire programmeertalen: C, C#, C++, Go, Java, JavaScript, PHP, Python, Ruby, Rust, Scala en TypeScript.

De ruwe dataset omvatte in totaal 631 GB aan data en 38,9 miljoen bestanden. Dat zei het team koos ervoor om PolyCoder te trainen met GPT-2 vanwege budgetbeperkingen. PolyCoder is beschikbaar als open source en de onderzoekers hopen dat het onderzoek op het gebied van AI-codegeneratie, dat tot nu toe werd gedomineerd door goed gefinancierde bedrijven, kan democratiseren.

De onderzoekers denken dat PolyCoder het werkt beter dan andere modellen bij het genereren van code in de C-taal. Codex heeft het echter altijd overtroffen in andere talen. "PolyCoder presteert aanzienlijk beter dan Codex en alle andere modellen in de C-taal.

“Toen Copilot afgelopen zomer GitHub verliet, werd duidelijk dat deze zeer grote taalcodemodellen erg nuttig kunnen zijn om ontwikkelaars te helpen en hun productiviteit te verhogen. Maar er waren geen modellen die zelfs maar in de buurt kwamen van die schaal,' vertelden de onderzoekers via e-mail aan VentureBeat. "Dus [PolyCoder] begon met Vincent die probeerde te zien wat het grootste model was dat op onze labserver kon worden getraind, wat uiteindelijk uit 2700 miljard parameters bestond... destijds."

Door alleen de open source modellen te vergelijken, PolyCoder presteert beter dan het vergelijkbare GPT-Neo 2.7B-model in C, JavaScript, Rust, Scala en TypeScript." punt. "In de andere 11 talen zijn alle andere open source-modellen, inclusief de onze, aanzienlijk slechter (grotere verwarring) dan Codex", voegden de CMU-onderzoekers eraan toe.

Hiermee wordt PolyCoder gepositioneerd als een zeer interessante oplossing, want terwijl onderzoekslaboratoria zoals Elon Musk's OpenAI en Alphabet's DeepMind krachtige codegenererende AI hebben ontwikkeld, zijn veel van de meest succesvolle systemen niet beschikbaar in open source. Bedrijven met lage inkomens hebben er geen toegang toe en deze situatie beperkt hun onderzoek in het veld.

Trainingsgegevens van de OpenAI Codex, die de Copilot-functie van GitHub aandrijft, zijn bijvoorbeeld niet openbaar gemaakt, waardoor onderzoekers het AI-model niet kunnen verfijnen of bepaalde aspecten ervan kunnen bestuderen, zoals interoperabiliteit.

"Grote technologiebedrijven geven hun modellen niet publiekelijk vrij, wat wetenschappelijk onderzoek en de democratisering van zulke grote taalcodemodellen echt belemmert", aldus de onderzoekers. “Tot op zekere hoogte hopen we dat onze inspanningen op het gebied van open source anderen zullen overtuigen om hetzelfde te doen. Maar het grote plaatje is dat de community deze modellen zelf moet kunnen trainen. Ons model heeft de grens verlegd van wat je op een enkele server kunt trainen – alles wat groter is vereist een pool van servers, wat de kosten drastisch verhoogt.”

Eindelijk als u er meer over wilt wetenkunt u de details in het volgende link.


Laat je reactie achter

Uw e-mailadres wordt niet gepubliceerd. Verplichte velden zijn gemarkeerd met *

*

*

  1. Verantwoordelijk voor de gegevens: Miguel Ángel Gatón
  2. Doel van de gegevens: Controle SPAM, commentaarbeheer.
  3. Legitimatie: uw toestemming
  4. Mededeling van de gegevens: De gegevens worden niet aan derden meegedeeld, behalve op grond van wettelijke verplichting.
  5. Gegevensopslag: database gehost door Occentus Networks (EU)
  6. Rechten: u kunt uw gegevens op elk moment beperken, herstellen en verwijderen.