PolyCoder ซึ่งเป็น AI ที่สร้างโค้ดที่เป็นโอเพ่นซอร์สและสามารถเหนือกว่า Codex

ปัจจุบัน เราเริ่มเห็นการเพิ่มขึ้นใน โซลูชั่นต่างๆ ที่พวกเขาเริ่มนำเสนอเกี่ยวกับ การสร้างรหัสโดยใช้ปัญญาประดิษฐ์ (AI) และนั่นก็คือสาขาการประมวลผลภาษาธรรมชาติ (NLP) ได้ปูทางสำหรับชุดของ AI ที่สร้างรหัสในภาษาโปรแกรมต่างๆ

ซึ่ง เราสามารถเน้นตัวอย่างเช่น GitHub Copilot, AlphaCode และ Codex และตอนนี้เราสามารถเพิ่มวิธีแก้ปัญหาใหม่จากมือของ นักวิจัยจากมหาวิทยาลัย Carnegie Mellon ใคร เพิ่งเปิดตัว "PolyCoder" เครื่องกำเนิดโค้ดตามโมเดลภาษา GPT-2 ของ OpenAI ที่ได้รับการฝึกอบรมบนฐานข้อมูลโค้ด 249 GB ใน 12 ภาษาการเขียนโปรแกรม

เกี่ยวกับ PolyCoder

ผู้เขียน PolyCoder อ้างว่าเป็น สามารถเขียน C ได้แม่นยำกว่ารุ่นอื่นๆ ที่รู้จัก รวมถึง Codex

รหัสที่สร้าง AI, สามารถเขียนซอร์สโค้ดในภาษาโปรแกรมต่างๆ ได้ ทันทีที่ค้างคาวสัญญาว่าจะลดต้นทุนการพัฒนาซอฟต์แวร์ในขณะที่ช่วยให้นักพัฒนาสามารถมุ่งเน้นไปที่งานสร้างสรรค์ที่ซ้ำซากน้อยลง

PolyCoder ขับเคลื่อนโดยข้อมูลจากที่เก็บ GitHub ต่างๆ ครอบคลุมภาษาโปรแกรมยอดนิยม 12 ภาษา: C, C#, C++, Go, Java, JavaScript, PHP, Python, Ruby, Rust, Scala และ TypeScript

ชุดข้อมูลที่ไม่ผ่านการกรองมีข้อมูลทั้งหมด 631 GB และ 38,9 ล้านไฟล์ ทีมงานบอกว่า เลือกฝึก PolyCoder ด้วย GPT-2 เนื่องจากข้อจำกัดด้านงบประมาณ PolyCoder พร้อมใช้งานเป็นโอเพ่นซอร์ส และนักวิจัยหวังว่าจะสามารถทำให้เกิดประชาธิปไตยในการวิจัยในด้านการสร้างรหัส AI ซึ่งจนถึงขณะนี้ก็ยังถูกครอบงำโดยบริษัทที่ได้รับทุนดี

นักวิจัยเชื่อว่า PolyCoder มันทำงานได้ดีกว่ารุ่นอื่น ๆ ในการสร้างรหัสในภาษาซี อย่างไรก็ตาม Codex ทำได้ดีกว่าในภาษาอื่นเสมอ "PolyCoder มีประสิทธิภาพเหนือกว่า Codex และรุ่นอื่นๆ ทั้งหมดในภาษา C อย่างมาก

“เมื่อ Copilot เปิดตัว GitHub เมื่อฤดูร้อนปีที่แล้ว เห็นได้ชัดว่าโมเดลโค้ดภาษาขนาดใหญ่มากเหล่านี้จะมีประโยชน์มากในการช่วยนักพัฒนาและเพิ่มประสิทธิภาพการทำงาน แต่ไม่มีโมเดลใดที่ใกล้เคียงกับมาตราส่วนนั้นเปิดเผยต่อสาธารณะ” นักวิจัยบอกกับ VentureBeat ทางอีเมล “ดังนั้น [PolyCoder] เริ่มต้นด้วย Vincent ที่พยายามค้นหาว่ารุ่นใดที่ใหญ่ที่สุดที่สามารถฝึกฝนบนเซิร์ฟเวอร์แล็บของเราได้ ซึ่งจบลงด้วยพารามิเตอร์ 2700 พันล้านตัว… และโมเดลนั้นเป็นลีกที่นำหน้าโมเดลเชิงโค้ดอื่นๆ ที่เรามี เผยแพร่สู่สาธารณะในขณะนั้น”

เมื่อเปรียบเทียบเฉพาะรุ่นโอเพ่นซอร์ส PolyCoder มีประสิทธิภาพเหนือกว่ารุ่น GPT-Neo 2.7B ที่มีขนาดใกล้เคียงกันใน C, JavaScript, Rust, Scala และ TypeScript" พวกเขาชี้ให้เห็น "ในอีก 11 ภาษา รูปแบบโอเพ่นซอร์สอื่น ๆ ทั้งหมด รวมทั้งของเรานั้นแย่กว่า (ความฉงนสนเท่ห์) มากกว่า Codex อย่างมาก" นักวิจัยของ CMU กล่าวเสริม

ด้วยเหตุนี้ PolyCoder จึงถูกจัดวางให้เป็นโซลูชันที่น่าสนใจมาก เนื่องจากในขณะที่ห้องปฏิบัติการวิจัย เช่น OpenAI ของ Elon Musk และ DeepMind ของ Alphabet ได้พัฒนา AI ที่สร้างโค้ดที่มีประสิทธิภาพ แต่ระบบที่ประสบความสำเร็จมากที่สุดจำนวนมากไม่มีอยู่ในโอเพ่นซอร์ส บริษัทที่มีรายได้ต่ำไม่สามารถเข้าถึงได้ และสถานการณ์นี้จำกัดการวิจัยของพวกเขาในสาขา

ตัวอย่างเช่น ข้อมูลการฝึกอบรมจาก OpenAI Codex ซึ่งขับเคลื่อนฟีเจอร์ Copilot ของ GitHub นั้นไม่ได้เปิดเผยต่อสาธารณะ ทำให้นักวิจัยไม่สามารถปรับแต่งโมเดล AI หรือศึกษาบางแง่มุมของมันได้ เช่น การทำงานร่วมกัน

“บริษัทเทคโนโลยีขนาดใหญ่ไม่ได้เปิดเผยแบบจำลองของตนต่อสาธารณะ ซึ่งขัดขวางการวิจัยทางวิทยาศาสตร์และการทำให้เป็นประชาธิปไตยของแบบจำลองรหัสภาษาขนาดใหญ่เช่นนี้” นักวิจัยกล่าว “ในระดับหนึ่ง เราหวังว่าความพยายามโอเพนซอร์สของเราจะโน้มน้าวให้ผู้อื่นทำเช่นเดียวกัน แต่ภาพรวมก็คือ ชุมชนควรจะสามารถฝึกโมเดลเหล่านี้ได้ด้วยตัวเอง โมเดลของเราได้ก้าวข้ามขีดจำกัดของสิ่งที่คุณฝึกได้บนเซิร์ฟเวอร์เครื่องเดียว สิ่งที่ใหญ่กว่านั้นต้องการกลุ่มเซิร์ฟเวอร์ ซึ่งเพิ่มต้นทุนอย่างมาก”

ในที่สุด หากคุณสนใจที่จะทราบข้อมูลเพิ่มเติมคุณสามารถตรวจสอบรายละเอียดได้ในไฟล์ ลิงค์ต่อไปนี้

แสดงความคิดเห็นของคุณ ยกเลิกการตอบ

อีเมล์ของคุณจะไม่ถูกเผยแพร่ ช่องที่ต้องการถูกทำเครื่องหมายด้วย *

คิดเห็น *

ชื่อ*

จดหมายอิเล็กทรอนิกส์*

ฉันยอมรับ ข้อกำหนดความเป็นส่วนตัว*

ผู้รับผิดชอบข้อมูล: Miguel ÁngelGatón
วัตถุประสงค์ของข้อมูล: ควบคุมสแปมการจัดการความคิดเห็น
ถูกต้องตามกฎหมาย: ความยินยอมของคุณ
การสื่อสารข้อมูล: ข้อมูลจะไม่ถูกสื่อสารไปยังบุคคลที่สามยกเว้นตามข้อผูกพันทางกฎหมาย
การจัดเก็บข้อมูล: ฐานข้อมูลที่โฮสต์โดย Occentus Networks (EU)
สิทธิ์: คุณสามารถ จำกัด กู้คืนและลบข้อมูลของคุณได้ตลอดเวลา

ฉันต้องการรับจดหมายข่าว

DesdeLinux

PolyCoder ซึ่งเป็นโอเพ่นซอร์สโค้ดที่สร้าง AI ที่มีประสิทธิภาพเหนือกว่า Codex

เกี่ยวกับ PolyCoder

แสดงความคิดเห็นของคุณ ยกเลิกการตอบ