पॉलीकोडर, AI व्युत्पन्न करणारा ओपन सोर्स कोड जो कोडेक्सला मागे टाकू शकतो 

लेखक: @लॉरेंट - Fotolia.com

सध्या, मध्ये वाढ दिसू लागली आहे च्या संबंधात ते देऊ लागलेले वेगवेगळे उपाय कृत्रिम बुद्धिमत्ता वापरून कोड जनरेशन (AI) आणि हे असे आहे की नैसर्गिक भाषा प्रक्रियेच्या (NLP) क्षेत्राने विविध प्रोग्रामिंग भाषांमध्ये कोड-जनरेटिंग AI च्या मालिकेचा मार्ग मोकळा केला आहे.

ज्यापैकी आम्ही GitHub Copilot, AlphaCode आणि Codex उदाहरणार्थ हायलाइट करू शकतो आणि ज्यामध्ये आपण आता च्या हातातून एक नवीन उपाय जोडू शकतो कार्नेगी मेलॉन विद्यापीठातील संशोधक कोण अलीकडेच "PolyCoder" सादर केले, OpenAI च्या GPT-2 भाषा मॉडेलवर आधारित कोड जनरेटर ज्याला 249 प्रोग्रामिंग भाषांमध्ये 12 GB कोड डेटाबेसवर प्रशिक्षित केले गेले.

पॉलीकोडर बद्दल

पॉलीकोडरचे लेखक दावा करतात की ते आहे कोडेक्ससह कोणत्याही ज्ञात मॉडेलपेक्षा C अधिक अचूकपणे लिहिण्यास सक्षम.

एआय तयार करणारा कोड, वेगवेगळ्या प्रोग्रामिंग भाषांमध्ये सोर्स कोड लिहू शकतो अगदी सुरुवातीपासूनच, हे सॉफ्टवेअर डेव्हलपमेंट खर्च कमी करण्याचे वचन देते आणि विकासकांना कमी पुनरावृत्ती, सर्जनशील कार्यांवर लक्ष केंद्रित करण्यास अनुमती देते.

पॉलीकोडर 12 लोकप्रिय प्रोग्रामिंग भाषांचा समावेश असलेल्या विविध गिटहब रेपॉजिटरीजमधील डेटाद्वारे समर्थित होते: C, C#, C++, Go, Java, JavaScript, PHP, Python, Ruby, Rust, Scala आणि TypeScript.

फिल्टर न केलेल्या डेटा सेटमध्ये एकूण 631 GB डेटा आणि 38,9 दशलक्ष फाइल्स होत्या. असे संघाने सांगितले बजेटच्या मर्यादांमुळे पॉलीकोडरला GPT-2 सह प्रशिक्षण देणे निवडले. पॉलीकोडर मुक्त स्त्रोत म्हणून उपलब्ध आहे आणि संशोधकांना आशा आहे की ते एआय कोड निर्मितीच्या क्षेत्रातील संशोधनाचे लोकशाहीकरण करू शकेल, ज्यावर आतापर्यंत चांगल्या अर्थसहाय्यित कंपन्यांचे वर्चस्व आहे.

संशोधकांचा असा विश्वास आहे की पॉलीकोडर सी भाषेत कोड जनरेट करण्यात ते इतर मॉडेल्सपेक्षा चांगले कार्य करते. तथापि, कोडेक्सने नेहमीच इतर भाषांमध्ये ते मागे टाकले आहे. "पॉलीकोडर नाटकीयरित्या कोडेक्स आणि सी भाषेतील इतर सर्व मॉडेल्सना मागे टाकते.

“गेल्या उन्हाळ्यात जेव्हा Copilot GitHub वर आला तेव्हा हे स्पष्ट झाले की हे खूप मोठे भाषा कोड मॉडेल्स विकासकांना मदत करण्यासाठी आणि त्यांची उत्पादकता वाढवण्यासाठी खूप उपयुक्त ठरू शकतात. परंतु त्या स्केलच्या जवळचे कोणतेही मॉडेल सार्वजनिकरित्या उपलब्ध नव्हते," संशोधकांनी व्हेंचरबीटला ईमेलद्वारे सांगितले. “म्हणून [पॉलीकोडर] व्हिन्सेंटने आमच्या लॅब सर्व्हरवर प्रशिक्षित केले जाऊ शकणारे सर्वात मोठे मॉडेल कोणते आहे हे शोधण्याचा प्रयत्न सुरू केला, जे 2700 अब्ज पॅरामीटर्सचे होते… आणि ते मॉडेल आमच्याकडे असलेल्या इतर कोड-ओरिएंटेड मॉडेलच्या पुढे होते. त्यावेळी सार्वजनिकरित्या उपलब्ध होते.

फक्त ओपन सोर्स मॉडेल्सची तुलना करताना, PolyCoder C, JavaScript, Rust, Scala आणि TypeScript मध्ये समान आकाराच्या GPT-Neo 2.7B मॉडेलला मागे टाकते." ते दाखवतात "इतर 11 भाषांमध्ये, आमच्या स्वतःसह इतर सर्व ओपन सोर्स मॉडेल्स, कोडेक्सपेक्षा लक्षणीयरीत्या वाईट (मोठे गोंधळ) आहेत," CMU संशोधकांनी जोडले.

यासह, पॉलीकोडरला एक अतिशय मनोरंजक उपाय म्हणून स्थान देण्यात आले आहे, कारण एलोन मस्कच्या ओपनएआय आणि अल्फाबेटच्या डीपमाइंड सारख्या संशोधन प्रयोगशाळांनी शक्तिशाली कोड-जनरेटिंग एआय विकसित केले आहे, अनेक यशस्वी प्रणाली ओपन सोर्समध्ये उपलब्ध नाहीत. कमी उत्पन्न असलेल्या कंपन्यांना त्यात प्रवेश नाही आणि ही परिस्थिती त्यांच्या क्षेत्रातील संशोधन मर्यादित करते.

उदाहरणार्थ, GitHub च्या Copilot वैशिष्ट्याला सामर्थ्य देणारा OpenAI Codex मधील प्रशिक्षण डेटा सार्वजनिक केला गेला नाही, ज्यामुळे संशोधकांना AI मॉडेल परिष्कृत करण्यापासून किंवा इंटरऑपरेबिलिटी सारख्या काही पैलूंचा अभ्यास करण्यापासून प्रतिबंधित केले जाते.

"मोठ्या टेक कंपन्या त्यांचे मॉडेल्स सार्वजनिकपणे प्रसिद्ध करत नाहीत, जे खरोखरच वैज्ञानिक संशोधन आणि अशा मोठ्या भाषा कोड मॉडेल्सचे लोकशाहीकरण रोखत आहेत," संशोधकांनी सांगितले. “काही प्रमाणात, आम्हाला आशा आहे की आमचे मुक्त स्त्रोत प्रयत्न इतरांनाही असे करण्यास पटवून देतील. परंतु मोठे चित्र असे आहे की समाजाने या मॉडेल्सना स्वतःहून प्रशिक्षण दिले पाहिजे. आमच्या मॉडेलने एका सर्व्हरवर तुम्ही काय प्रशिक्षित करू शकता याची मर्यादा पुढे ढकलली आहे – कोणत्याही मोठ्या सर्व्हरसाठी एक पूल आवश्यक आहे, ज्यामुळे खर्चात लक्षणीय वाढ होते.”

शेवटी आपल्याला त्याबद्दल अधिक जाणून घेण्यात स्वारस्य असल्यास, आपण मधील तपशील तपासू शकता खालील दुवा.


आपली टिप्पणी द्या

आपला ई-मेल पत्ता प्रकाशित केला जाणार नाही. आवश्यक फील्ड चिन्हांकित केले आहेत *

*

*

  1. डेटा जबाबदार: मिगुएल Áन्गल गॅटन
  2. डेटाचा उद्देशः नियंत्रण स्पॅम, टिप्पणी व्यवस्थापन.
  3. कायदे: आपली संमती
  4. डेटा संप्रेषण: कायदेशीर बंधन वगळता डेटा तृतीय पक्षास कळविला जाणार नाही.
  5. डेटा संग्रहण: ओकेन्टस नेटवर्क (EU) द्वारा होस्ट केलेला डेटाबेस
  6. अधिकारः कोणत्याही वेळी आपण आपली माहिती मर्यादित, पुनर्प्राप्त आणि हटवू शकता.