PolyCoder, otvoreni izvorni kod koji generiše AI koji bi mogao nadmašiti Codex 

Autor: @Laurent - Fotolia.com

Trenutno, Počeli smo da viđamo povećanje različita rješenja koja počinju da nude u odnosu na generiranje koda pomoću umjetne inteligencije (AI) i to je da je polje obrade prirodnog jezika (NLP) utrlo put za seriju AI za generiranje koda u različitim programskim jezicima.

Od kojeg možemo istaknuti na primjer GitHub Copilot, AlphaCode i Codex i kojem sada možemo dodati novo rješenje iz ruke istraživači sa Univerziteta Carnegie Mellon ko nedavno predstavljen "PolyCoder", generator koda baziran na OpenAI-jevom GPT-2 jezičkom modelu koji je obučen na bazi kodova od 249 GB u 12 programskih jezika.

O PolyCoderu

Autori PolyCoder-a tvrde da jeste sposoban da napiše C preciznije od bilo kojeg poznatog modela, uključujući Codex.

Kod koji generiše AI, može pisati izvorni kod na različitim programskim jezicima Odmah na početku obećava smanjenje troškova razvoja softvera, a istovremeno omogućava programerima da se fokusiraju na manje ponavljajuće, kreativne zadatke.

PolyCoder je pokretan podacima iz različitih GitHub repozitorija, koji pokrivaju 12 popularnih programskih jezika: C, C#, C++, Go, Java, JavaScript, PHP, Python, Ruby, Rust, Scala i TypeScript.

Nefiltrirani skup podataka imao je ukupno 631 GB podataka i 38,9 miliona datoteka. Tim je to rekao odlučio da trenira PolyCoder sa GPT-2 zbog budžetskih ograničenja. PolyCoder je dostupan kao open source, a istraživači se nadaju da može demokratizirati istraživanje u oblasti generisanja AI kodova, kojim su do sada dominirale dobro finansirane kompanije.

Istraživači vjeruju da je PolyCoder radi bolje od drugih modela u generiranju koda u jeziku C. Međutim, Codex ga je uvijek nadmašio u drugim jezicima. „PolyCoder dramatično nadmašuje Codex i sve druge modele u jeziku C.

“Kada je Copilot prošlog ljeta izašao na GitHub-u, postalo je jasno da ovi veoma veliki jezički kodni modeli mogu biti vrlo korisni u pomoći programerima i povećanju njihove produktivnosti. Ali nijedan model čak ni blizu te skale nije bio javno dostupan”, rekli su istraživači VentureBeatu putem e-pošte. „Tako je [PolyCoder] počeo sa Vincentom koji je pokušavao da otkrije koji je najveći model koji bi se mogao obučiti na našem laboratorijskom serveru, koji je na kraju bio 2700 milijardi parametara... i taj model je bio ligu ispred drugih kodno orijentiranih modela koje smo imali . bili javno dostupni u to vrijeme.”

Kada se porede samo modeli otvorenog koda, PolyCoder nadmašuje GPT-Neo 2.7B model slične veličine u C, JavaScript, Rust, Scala i TypeScript." ističu "U ostalih 11 jezika, svi ostali modeli otvorenog koda, uključujući i naš, su znatno gori (veća nedoumica) od Codexa", dodali su istraživači CMU-a.

Ovim se PolyCoder pozicionira kao vrlo zanimljivo rješenje, budući da su istraživačke laboratorije poput OpenAI Elona Muska i Alphabetovog DeepMind-a razvile moćnu AI za generiranje koda, mnogi od najuspješnijih sistema nisu dostupni u otvorenom kodu. Kompanije sa niskim prihodima nemaju pristup tome i ova situacija ograničava njihova istraživanja na terenu.

Na primjer, podaci o obuci iz OpenAI Codexa, koji pokreće GitHubovu funkciju Copilot, nisu objavljeni, što je spriječilo istraživače da usavrše AI model ili proučavaju određene njegove aspekte, kao što je interoperabilnost.

"Velike tehnološke kompanije ne objavljuju javno svoje modele, što zaista koči naučna istraživanja i demokratizaciju tako velikih modela jezičkog koda", rekli su istraživači. „U određenoj mjeri, nadamo se da će naši napori otvorenog koda uvjeriti druge da učine isto. Ali velika slika je da bi zajednica trebala biti u mogućnosti da sama obučava ove modele. Naš model je pomaknuo granicu onoga što možete trenirati na jednom serveru – sve što je veće zahtijeva skup servera, što dramatično povećava troškove.”

Konačno ako ste zainteresirani da saznate više o tome, detalje možete provjeriti u sljedeći link.


Ostavite komentar

Vaša e-mail adresa neće biti objavljena. Obavezna polja su označena sa *

*

*

  1. Za podatke odgovoran: Miguel Ángel Gatón
  2. Svrha podataka: Kontrola neželjene pošte, upravljanje komentarima.
  3. Legitimacija: Vaš pristanak
  4. Komunikacija podataka: Podaci se neće dostavljati trećim stranama, osim po zakonskoj obavezi.
  5. Pohrana podataka: Baza podataka koju hostuje Occentus Networks (EU)
  6. Prava: U bilo kojem trenutku možete ograničiti, oporaviti i izbrisati svoje podatke.