পলিকোডার, একটি ওপেন সোর্স কোড তৈরি করে AI যা কোডেক্সকে ছাড়িয়ে যেতে পারে 

লেখক: @লরেন্ট - Fotolia.com

বর্তমানে, আমরা বৃদ্ধি দেখতে শুরু করেছি বিভিন্ন সমাধান যে তারা সম্পর্কে অফার শুরু হয় কৃত্রিম বুদ্ধিমত্তা ব্যবহার করে কোড জেনারেশন (এআই) এবং এটি হল যে প্রাকৃতিক ভাষা প্রক্রিয়াকরণের ক্ষেত্র (এনএলপি) বিভিন্ন প্রোগ্রামিং ভাষায় কোড-উৎপাদনকারী AIগুলির একটি সিরিজের পথ তৈরি করেছে।

কোনটি আমরা যেমন GitHub Copilot, AlphaCode এবং Codex হাইলাইট করতে পারি এবং যেটিতে আমরা এখন এর হাত থেকে একটি নতুন সমাধান যোগ করতে পারি কার্নেগি মেলন বিশ্ববিদ্যালয়ের গবেষকরা যারা যারা সম্প্রতি "পলিকোডার" চালু করা হয়েছে, OpenAI-এর GPT-2 ভাষার মডেলের উপর ভিত্তি করে একটি কোড জেনারেটর যা 249টি প্রোগ্রামিং ভাষায় 12 GB কোড ডাটাবেসে প্রশিক্ষিত ছিল।

পলিকোডার সম্পর্কে

পলিকোডারের লেখকরা দাবি করেন যে এটি কোডেক্স সহ যেকোন পরিচিত মডেলের চেয়ে বেশি নির্ভুলভাবে সি লিখতে সক্ষম।

AI তৈরির কোড, বিভিন্ন প্রোগ্রামিং ভাষায় সোর্স কোড লিখতে পারেন ঠিক ব্যাট থেকে, এটি সফ্টওয়্যার বিকাশের খরচ কম করার প্রতিশ্রুতি দেয় যখন ডেভেলপারদের কম পুনরাবৃত্তিমূলক, সৃজনশীল কাজগুলিতে ফোকাস করতে দেয়।

পলিকোডার 12টি জনপ্রিয় প্রোগ্রামিং ভাষা কভার করে বিভিন্ন গিটহাব সংগ্রহস্থল থেকে ডেটা দ্বারা চালিত হয়েছিল: C, C#, C++, Go, Java, JavaScript, PHP, Python, Ruby, Rust, Scala, এবং TypeScript।

আনফিল্টার করা ডেটা সেটটিতে মোট 631 GB ডেটা এবং 38,9 মিলিয়ন ফাইল রয়েছে। দলটি ড বাজেটের সীমাবদ্ধতার কারণে GPT-2 এর সাথে পলিকোডারকে প্রশিক্ষণ দেওয়া বেছে নিয়েছে। পলিকোডার ওপেন সোর্স হিসাবে উপলব্ধ, এবং গবেষকরা আশা করছেন এটি এআই কোড জেনারেশনের ক্ষেত্রে গবেষণাকে গণতন্ত্রীকরণ করতে পারে, যা এখন পর্যন্ত ভাল-তহবিলযুক্ত সংস্থাগুলির দ্বারা প্রাধান্য পেয়েছে।

গবেষকরা বিশ্বাস করেন যে পলিকোডার এটি সি ভাষায় কোড তৈরি করার ক্ষেত্রে অন্যান্য মডেলের চেয়ে ভালো কাজ করে। যাইহোক, কোডেক্স সবসময় অন্যান্য ভাষায় এটিকে ছাড়িয়ে গেছে। "পলিকোডার নাটকীয়ভাবে সি ভাষায় কোডেক্স এবং অন্যান্য সমস্ত মডেলকে ছাড়িয়ে যায়৷

"গত গ্রীষ্মে যখন Copilot GitHub-এ বেরিয়ে আসে, তখন এটা স্পষ্ট হয়ে যায় যে এই খুব বড় ভাষা কোড মডেলগুলি ডেভেলপারদের সাহায্য করতে এবং তাদের উত্পাদনশীলতা বাড়াতে খুব কার্যকর হতে পারে৷ কিন্তু সেই স্কেলের কাছাকাছি কোনও মডেলও সর্বজনীনভাবে উপলব্ধ ছিল না," গবেষকরা ইমেলের মাধ্যমে VentureBeat কে জানিয়েছেন। “সুতরাং [পলিকোডার] ভিনসেন্টের সাথে শুরু করে আমাদের ল্যাব সার্ভারে প্রশিক্ষিত সবচেয়ে বড় মডেল কোনটি ছিল তা বের করার চেষ্টা করে, যা 2700 বিলিয়ন প্যারামিটারে পরিণত হয়েছে… এবং সেই মডেলটি আমাদের কাছে থাকা অন্যান্য কোড-ভিত্তিক মডেলগুলির থেকে এগিয়ে ছিল। সেই সময়ে সর্বজনীনভাবে উপলব্ধ ছিল।"

শুধুমাত্র ওপেন সোর্স মডেলের সাথে তুলনা করার সময়, PolyCoder C, JavaScript, Rust, Scala, এবং TypeScript-এ একই আকারের GPT-Neo 2.7B মডেলকে ছাড়িয়ে যায়।" তারা নির্দেশ করে "অন্যান্য 11টি ভাষায়, আমাদের নিজস্ব সহ অন্যান্য সমস্ত ওপেন সোর্স মডেল কোডেক্সের তুলনায় উল্লেখযোগ্যভাবে খারাপ (বৃহত্তর বিভ্রান্তি)," CMU গবেষকরা যোগ করেছেন।

এটির সাথে, পলিকোডার একটি অত্যন্ত আকর্ষণীয় সমাধান হিসাবে অবস্থান করছে, যেহেতু এলন মাস্কের ওপেনএআই এবং অ্যালফাবেটের ডিপমাইন্ডের মতো গবেষণা ল্যাবরেটরিগুলি শক্তিশালী কোড-উৎপাদনকারী AI তৈরি করেছে, অনেকগুলি সফল সিস্টেম ওপেন সোর্সে উপলব্ধ নয়। নিম্ন-আয়ের কোম্পানিগুলির এটি অ্যাক্সেস নেই এবং এই পরিস্থিতি ক্ষেত্রে তাদের গবেষণা সীমিত করে।

উদাহরণ স্বরূপ, ওপেনএআই কোডেক্স থেকে প্রশিক্ষণের ডেটা, যা গিটহাবের কপিলট বৈশিষ্ট্যকে ক্ষমতা দেয়, তা সর্বজনীন করা হয়নি, যা গবেষকদের এআই মডেলকে পরিমার্জন করতে বা এর কিছু বিশেষ দিক যেমন আন্তঃকার্যক্ষমতা অধ্যয়ন করতে বাধা দেয়।

"বড় প্রযুক্তি কোম্পানিগুলি তাদের মডেলগুলি প্রকাশ্যে প্রকাশ করছে না, যা সত্যিই বৈজ্ঞানিক গবেষণা এবং এই ধরনের বৃহৎ ভাষার কোড মডেলগুলির গণতন্ত্রীকরণকে আটকে রেখেছে," গবেষকরা বলেছেন। “কিছু পরিমাণে, আমরা আশা করি যে আমাদের ওপেন সোর্স প্রচেষ্টা অন্যদেরও একই কাজ করতে রাজি করবে। কিন্তু বড় চিত্র হল যে সম্প্রদায়ের উচিত এই মডেলগুলিকে তাদের নিজস্ব প্রশিক্ষণ দিতে সক্ষম হওয়া উচিত। আমাদের মডেলটি একটি একক সার্ভারে আপনি যা প্রশিক্ষণ দিতে পারেন তার সীমাকে ঠেলে দিয়েছে - যেকোনও বড় কিছুর জন্য সার্ভারের একটি পুল প্রয়োজন, যা নাটকীয়ভাবে খরচ বাড়ায়।"

পরিশেষে আপনি যদি এটি সম্পর্কে আরও জানতে আগ্রহী হন, আপনি বিশদে পরীক্ষা করতে পারেন নিম্নলিখিত লিঙ্ক.


আপনার মন্তব্য দিন

আপনার ইমেল ঠিকানা প্রকাশিত হবে না। প্রয়োজনীয় ক্ষেত্রগুলি দিয়ে চিহ্নিত করা *

*

*

  1. ডেটার জন্য দায়বদ্ধ: মিগুয়েল অ্যাঞ্জেল গাটান
  2. ডেটার উদ্দেশ্য: নিয়ন্ত্রণ স্প্যাম, মন্তব্য পরিচালনা।
  3. আইনীকরণ: আপনার সম্মতি
  4. তথ্য যোগাযোগ: ডেটা আইনি বাধ্যবাধকতা ব্যতীত তৃতীয় পক্ষের কাছে জানানো হবে না।
  5. ডেটা স্টোরেজ: ওসেন্টাস নেটওয়ার্কস (ইইউ) দ্বারা হোস্ট করা ডেটাবেস
  6. অধিকার: যে কোনও সময় আপনি আপনার তথ্য সীমাবদ্ধ করতে, পুনরুদ্ধার করতে এবং মুছতে পারেন।