PolyCoder, en åben kildekode, der genererer AI, der kunne overgå Codex 

Forfatter: @Laurent - Fotolia.com

Currently, Vi er begyndt at se en stigning i de forskellige løsninger, som de begynder at tilbyde i forhold til kodegenerering ved hjælp af kunstig intelligens (AI), og det er, at området for naturlig sprogbehandling (NLP) har banet vejen for en række kodegenererende AI'er i forskellige programmeringssprog.

Af hvilken vi kan fremhæve for eksempel GitHub Copilot, AlphaCode og Codex og som vi nu kan tilføje en ny løsning fra hånden af forskere ved Carnegie Mellon University dem der for nylig introducerede "PolyCoder", en kodegenerator baseret på OpenAIs GPT-2 sprogmodel, der blev trænet på en 249 GB kodedatabase i 12 programmeringssprog.

Om PolyCoder

Forfatterne af PolyCoder hævder, at det er det i stand til at skrive C mere præcist end nogen kendt model, inklusive Codex.

Den kode, der genererer AI, kan skrive kildekode på forskellige programmeringssprog Lige fra starten lover det at sænke omkostningerne til softwareudvikling, samtidig med at udviklerne kan fokusere på mindre gentagne, kreative opgaver.

PolyCoder blev drevet af data fra forskellige GitHub-depoter, der dækkede 12 populære programmeringssprog: C, C#, C++, Go, Java, JavaScript, PHP, Python, Ruby, Rust, Scala og TypeScript.

Det ufiltrerede datasæt udgjorde i alt 631 GB data og 38,9 millioner filer. Det sagde holdet valgte at træne PolyCoder med GPT-2 på grund af budgetmæssige begrænsninger. PolyCoder er tilgængelig som open source, og forskerne håber, at det kan demokratisere forskning inden for AI-kodegenerering, som indtil nu har været domineret af velfinansierede virksomheder.

Forskerne mener, at PolyCoder det fungerer bedre end andre modeller til at generere kode i C-sproget. Codex har dog altid overgået det på andre sprog. "PolyCoder overgår dramatisk Codex og alle andre modeller i C-sproget.

“Da Copilot udkom på GitHub sidste sommer, blev det klart, at disse meget store sprogkodemodeller kan være meget nyttige til at hjælpe udviklere og øge deres produktivitet. Men ingen model engang tæt på den skala var offentligt tilgængelig," fortalte forskerne VentureBeat via e-mail. "Så [PolyCoder] startede med, at Vincent forsøgte at finde ud af, hvad der var den største model, der kunne trænes på vores laboratorieserver, som endte med at være 2700 milliarder parametre... og den model var en liga foran andre kodeorienterede modeller, som vi havde . var offentligt tilgængelige på det tidspunkt."

Når man kun sammenligner open source-modeller, PolyCoder overgår den tilsvarende størrelse GPT-Neo 2.7B-model i C, JavaScript, Rust, Scala og TypeScript." påpeger de "På de andre 11 sprog er alle andre open source-modeller, inklusive vores egen, væsentligt værre (større forvirring) end Codex," tilføjede CMU-forskerne.

Med dette er PolyCoder positioneret som en meget interessant løsning, da mens forskningslaboratorier som Elon Musks OpenAI og Alphabets DeepMind har udviklet kraftfuld kodegenererende AI, er mange af de mest succesrige systemer ikke tilgængelige i open source. Lavindkomstvirksomheder har ikke adgang til det, og denne situation begrænser deres forskning på området.

For eksempel er træningsdata fra OpenAI Codex, som driver GitHubs Copilot-funktion, ikke blevet offentliggjort, hvilket forhindrer forskere i at forfine AI-modellen eller studere visse aspekter af den, såsom interoperabilitet.

"Store teknologivirksomheder frigiver ikke deres modeller offentligt, hvilket virkelig holder videnskabelig forskning og demokratiseringen af ​​så store sprogkodemodeller tilbage," sagde forskerne. "Til en vis grad håber vi, at vores open source-indsats vil overbevise andre om at gøre det samme. Men det store billede er, at samfundet skal være i stand til at træne disse modeller på egen hånd. Vores model rykkede grænsen for, hvad du kan træne på en enkelt server - alt større kræver en pulje af servere, hvilket dramatisk øger omkostningerne."

Endelig hvis du er interesseret i at vide mere om det, kan du kontrollere detaljerne i følgende link.


Indholdet af artiklen overholder vores principper for redaktionel etik. Klik på for at rapportere en fejl her.

Vær den første til at kommentere

Efterlad din kommentar

Din e-mailadresse vil ikke blive offentliggjort.

*

*

  1. Ansvarlig for dataene: Miguel Ángel Gatón
  2. Formålet med dataene: Control SPAM, management af kommentarer.
  3. Legitimering: Dit samtykke
  4. Kommunikation af dataene: Dataene vil ikke blive kommunikeret til tredjemand, undtagen ved juridisk forpligtelse.
  5. Datalagring: Database hostet af Occentus Networks (EU)
  6. Rettigheder: Du kan til enhver tid begrænse, gendanne og slette dine oplysninger.