PolyCoder ซึ่งเป็นโอเพ่นซอร์สโค้ดที่สร้าง AI ที่มีประสิทธิภาพเหนือกว่า Codex 

ผู้เขียน: @Laurent - Fotolia.com

ปัจจุบัน เราเริ่มเห็นการเพิ่มขึ้นใน โซลูชั่นต่างๆ ที่พวกเขาเริ่มนำเสนอเกี่ยวกับ การสร้างรหัสโดยใช้ปัญญาประดิษฐ์ (AI) และนั่นก็คือสาขาการประมวลผลภาษาธรรมชาติ (NLP) ได้ปูทางสำหรับชุดของ AI ที่สร้างรหัสในภาษาโปรแกรมต่างๆ

ซึ่ง เราสามารถเน้นตัวอย่างเช่น GitHub Copilot, AlphaCode และ Codex และตอนนี้เราสามารถเพิ่มวิธีแก้ปัญหาใหม่จากมือของ นักวิจัยจากมหาวิทยาลัย Carnegie Mellon ใคร เพิ่งเปิดตัว "PolyCoder" เครื่องกำเนิดโค้ดตามโมเดลภาษา GPT-2 ของ OpenAI ที่ได้รับการฝึกอบรมบนฐานข้อมูลโค้ด 249 GB ใน 12 ภาษาการเขียนโปรแกรม

เกี่ยวกับ PolyCoder

ผู้เขียน PolyCoder อ้างว่าเป็น สามารถเขียน C ได้แม่นยำกว่ารุ่นอื่นๆ ที่รู้จัก รวมถึง Codex

รหัสที่สร้าง AI, สามารถเขียนซอร์สโค้ดในภาษาโปรแกรมต่างๆ ได้ ทันทีที่ค้างคาวสัญญาว่าจะลดต้นทุนการพัฒนาซอฟต์แวร์ในขณะที่ช่วยให้นักพัฒนาสามารถมุ่งเน้นไปที่งานสร้างสรรค์ที่ซ้ำซากน้อยลง

PolyCoder ขับเคลื่อนโดยข้อมูลจากที่เก็บ GitHub ต่างๆ ครอบคลุมภาษาโปรแกรมยอดนิยม 12 ภาษา: C, C#, C++, Go, Java, JavaScript, PHP, Python, Ruby, Rust, Scala และ TypeScript

ชุดข้อมูลที่ไม่ผ่านการกรองมีข้อมูลทั้งหมด 631 GB และ 38,9 ล้านไฟล์ ทีมงานบอกว่า เลือกฝึก PolyCoder ด้วย GPT-2 เนื่องจากข้อจำกัดด้านงบประมาณ PolyCoder พร้อมใช้งานเป็นโอเพ่นซอร์ส และนักวิจัยหวังว่าจะสามารถทำให้เกิดประชาธิปไตยในการวิจัยในด้านการสร้างรหัส AI ซึ่งจนถึงขณะนี้ก็ยังถูกครอบงำโดยบริษัทที่ได้รับทุนดี

นักวิจัยเชื่อว่า PolyCoder มันทำงานได้ดีกว่ารุ่นอื่น ๆ ในการสร้างรหัสในภาษาซี อย่างไรก็ตาม Codex ทำได้ดีกว่าในภาษาอื่นเสมอ "PolyCoder มีประสิทธิภาพเหนือกว่า Codex และรุ่นอื่นๆ ทั้งหมดในภาษา C อย่างมาก

“เมื่อ Copilot เปิดตัว GitHub เมื่อฤดูร้อนปีที่แล้ว เห็นได้ชัดว่าโมเดลโค้ดภาษาขนาดใหญ่มากเหล่านี้จะมีประโยชน์มากในการช่วยนักพัฒนาและเพิ่มประสิทธิภาพการทำงาน แต่ไม่มีโมเดลใดที่ใกล้เคียงกับมาตราส่วนนั้นเปิดเผยต่อสาธารณะ” นักวิจัยบอกกับ VentureBeat ทางอีเมล “ดังนั้น [PolyCoder] เริ่มต้นด้วย Vincent ที่พยายามค้นหาว่ารุ่นใดที่ใหญ่ที่สุดที่สามารถฝึกฝนบนเซิร์ฟเวอร์แล็บของเราได้ ซึ่งจบลงด้วยพารามิเตอร์ 2700 พันล้านตัว… และโมเดลนั้นเป็นลีกที่นำหน้าโมเดลเชิงโค้ดอื่นๆ ที่เรามี เผยแพร่สู่สาธารณะในขณะนั้น”

เมื่อเปรียบเทียบเฉพาะรุ่นโอเพ่นซอร์ส PolyCoder มีประสิทธิภาพเหนือกว่ารุ่น GPT-Neo 2.7B ที่มีขนาดใกล้เคียงกันใน C, JavaScript, Rust, Scala และ TypeScript" พวกเขาชี้ให้เห็น "ในอีก 11 ภาษา รูปแบบโอเพ่นซอร์สอื่น ๆ ทั้งหมด รวมทั้งของเรานั้นแย่กว่า (ความฉงนสนเท่ห์) มากกว่า Codex อย่างมาก" นักวิจัยของ CMU กล่าวเสริม

ด้วยเหตุนี้ PolyCoder จึงถูกจัดวางให้เป็นโซลูชันที่น่าสนใจมาก เนื่องจากในขณะที่ห้องปฏิบัติการวิจัย เช่น OpenAI ของ Elon Musk และ DeepMind ของ Alphabet ได้พัฒนา AI ที่สร้างโค้ดที่มีประสิทธิภาพ แต่ระบบที่ประสบความสำเร็จมากที่สุดจำนวนมากไม่มีอยู่ในโอเพ่นซอร์ส บริษัทที่มีรายได้ต่ำไม่สามารถเข้าถึงได้ และสถานการณ์นี้จำกัดการวิจัยของพวกเขาในสาขา

ตัวอย่างเช่น ข้อมูลการฝึกอบรมจาก OpenAI Codex ซึ่งขับเคลื่อนฟีเจอร์ Copilot ของ GitHub นั้นไม่ได้เปิดเผยต่อสาธารณะ ทำให้นักวิจัยไม่สามารถปรับแต่งโมเดล AI หรือศึกษาบางแง่มุมของมันได้ เช่น การทำงานร่วมกัน

“บริษัทเทคโนโลยีขนาดใหญ่ไม่ได้เปิดเผยแบบจำลองของตนต่อสาธารณะ ซึ่งขัดขวางการวิจัยทางวิทยาศาสตร์และการทำให้เป็นประชาธิปไตยของแบบจำลองรหัสภาษาขนาดใหญ่เช่นนี้” นักวิจัยกล่าว “ในระดับหนึ่ง เราหวังว่าความพยายามโอเพนซอร์สของเราจะโน้มน้าวให้ผู้อื่นทำเช่นเดียวกัน แต่ภาพรวมก็คือ ชุมชนควรจะสามารถฝึกโมเดลเหล่านี้ได้ด้วยตัวเอง โมเดลของเราได้ก้าวข้ามขีดจำกัดของสิ่งที่คุณฝึกได้บนเซิร์ฟเวอร์เครื่องเดียว สิ่งที่ใหญ่กว่านั้นต้องการกลุ่มเซิร์ฟเวอร์ ซึ่งเพิ่มต้นทุนอย่างมาก”

ในที่สุด หากคุณสนใจที่จะทราบข้อมูลเพิ่มเติมคุณสามารถตรวจสอบรายละเอียดได้ในไฟล์ ลิงค์ต่อไปนี้


แสดงความคิดเห็นของคุณ

อีเมล์ของคุณจะไม่ถูกเผยแพร่ ช่องที่ต้องการถูกทำเครื่องหมายด้วย *

*

*

  1. ผู้รับผิดชอบข้อมูล: Miguel ÁngelGatón
  2. วัตถุประสงค์ของข้อมูล: ควบคุมสแปมการจัดการความคิดเห็น
  3. ถูกต้องตามกฎหมาย: ความยินยอมของคุณ
  4. การสื่อสารข้อมูล: ข้อมูลจะไม่ถูกสื่อสารไปยังบุคคลที่สามยกเว้นตามข้อผูกพันทางกฎหมาย
  5. การจัดเก็บข้อมูล: ฐานข้อมูลที่โฮสต์โดย Occentus Networks (EU)
  6. สิทธิ์: คุณสามารถ จำกัด กู้คืนและลบข้อมูลของคุณได้ตลอดเวลา