ปัจจุบัน เราเริ่มเห็นการเพิ่มขึ้นใน โซลูชั่นต่างๆ ที่พวกเขาเริ่มนำเสนอเกี่ยวกับ การสร้างรหัสโดยใช้ปัญญาประดิษฐ์ (AI) และนั่นก็คือสาขาการประมวลผลภาษาธรรมชาติ (NLP) ได้ปูทางสำหรับชุดของ AI ที่สร้างรหัสในภาษาโปรแกรมต่างๆ
ซึ่ง เราสามารถเน้นตัวอย่างเช่น GitHub Copilot, AlphaCode และ Codex และตอนนี้เราสามารถเพิ่มวิธีแก้ปัญหาใหม่จากมือของ นักวิจัยจากมหาวิทยาลัย Carnegie Mellon ใคร เพิ่งเปิดตัว "PolyCoder" เครื่องกำเนิดโค้ดตามโมเดลภาษา GPT-2 ของ OpenAI ที่ได้รับการฝึกอบรมบนฐานข้อมูลโค้ด 249 GB ใน 12 ภาษาการเขียนโปรแกรม
เกี่ยวกับ PolyCoder
ผู้เขียน PolyCoder อ้างว่าเป็น สามารถเขียน C ได้แม่นยำกว่ารุ่นอื่นๆ ที่รู้จัก รวมถึง Codex
รหัสที่สร้าง AI, สามารถเขียนซอร์สโค้ดในภาษาโปรแกรมต่างๆ ได้ ทันทีที่ค้างคาวสัญญาว่าจะลดต้นทุนการพัฒนาซอฟต์แวร์ในขณะที่ช่วยให้นักพัฒนาสามารถมุ่งเน้นไปที่งานสร้างสรรค์ที่ซ้ำซากน้อยลง
PolyCoder ขับเคลื่อนโดยข้อมูลจากที่เก็บ GitHub ต่างๆ ครอบคลุมภาษาโปรแกรมยอดนิยม 12 ภาษา: C, C#, C++, Go, Java, JavaScript, PHP, Python, Ruby, Rust, Scala และ TypeScript
ชุดข้อมูลที่ไม่ผ่านการกรองมีข้อมูลทั้งหมด 631 GB และ 38,9 ล้านไฟล์ ทีมงานบอกว่า เลือกฝึก PolyCoder ด้วย GPT-2 เนื่องจากข้อจำกัดด้านงบประมาณ PolyCoder พร้อมใช้งานเป็นโอเพ่นซอร์ส และนักวิจัยหวังว่าจะสามารถทำให้เกิดประชาธิปไตยในการวิจัยในด้านการสร้างรหัส AI ซึ่งจนถึงขณะนี้ก็ยังถูกครอบงำโดยบริษัทที่ได้รับทุนดี
นักวิจัยเชื่อว่า PolyCoder มันทำงานได้ดีกว่ารุ่นอื่น ๆ ในการสร้างรหัสในภาษาซี อย่างไรก็ตาม Codex ทำได้ดีกว่าในภาษาอื่นเสมอ "PolyCoder มีประสิทธิภาพเหนือกว่า Codex และรุ่นอื่นๆ ทั้งหมดในภาษา C อย่างมาก
“เมื่อ Copilot เปิดตัว GitHub เมื่อฤดูร้อนปีที่แล้ว เห็นได้ชัดว่าโมเดลโค้ดภาษาขนาดใหญ่มากเหล่านี้จะมีประโยชน์มากในการช่วยนักพัฒนาและเพิ่มประสิทธิภาพการทำงาน แต่ไม่มีโมเดลใดที่ใกล้เคียงกับมาตราส่วนนั้นเปิดเผยต่อสาธารณะ” นักวิจัยบอกกับ VentureBeat ทางอีเมล “ดังนั้น [PolyCoder] เริ่มต้นด้วย Vincent ที่พยายามค้นหาว่ารุ่นใดที่ใหญ่ที่สุดที่สามารถฝึกฝนบนเซิร์ฟเวอร์แล็บของเราได้ ซึ่งจบลงด้วยพารามิเตอร์ 2700 พันล้านตัว… และโมเดลนั้นเป็นลีกที่นำหน้าโมเดลเชิงโค้ดอื่นๆ ที่เรามี เผยแพร่สู่สาธารณะในขณะนั้น”
เมื่อเปรียบเทียบเฉพาะรุ่นโอเพ่นซอร์ส PolyCoder มีประสิทธิภาพเหนือกว่ารุ่น GPT-Neo 2.7B ที่มีขนาดใกล้เคียงกันใน C, JavaScript, Rust, Scala และ TypeScript" พวกเขาชี้ให้เห็น "ในอีก 11 ภาษา รูปแบบโอเพ่นซอร์สอื่น ๆ ทั้งหมด รวมทั้งของเรานั้นแย่กว่า (ความฉงนสนเท่ห์) มากกว่า Codex อย่างมาก" นักวิจัยของ CMU กล่าวเสริม
ด้วยเหตุนี้ PolyCoder จึงถูกจัดวางให้เป็นโซลูชันที่น่าสนใจมาก เนื่องจากในขณะที่ห้องปฏิบัติการวิจัย เช่น OpenAI ของ Elon Musk และ DeepMind ของ Alphabet ได้พัฒนา AI ที่สร้างโค้ดที่มีประสิทธิภาพ แต่ระบบที่ประสบความสำเร็จมากที่สุดจำนวนมากไม่มีอยู่ในโอเพ่นซอร์ส บริษัทที่มีรายได้ต่ำไม่สามารถเข้าถึงได้ และสถานการณ์นี้จำกัดการวิจัยของพวกเขาในสาขา
ตัวอย่างเช่น ข้อมูลการฝึกอบรมจาก OpenAI Codex ซึ่งขับเคลื่อนฟีเจอร์ Copilot ของ GitHub นั้นไม่ได้เปิดเผยต่อสาธารณะ ทำให้นักวิจัยไม่สามารถปรับแต่งโมเดล AI หรือศึกษาบางแง่มุมของมันได้ เช่น การทำงานร่วมกัน
“บริษัทเทคโนโลยีขนาดใหญ่ไม่ได้เปิดเผยแบบจำลองของตนต่อสาธารณะ ซึ่งขัดขวางการวิจัยทางวิทยาศาสตร์และการทำให้เป็นประชาธิปไตยของแบบจำลองรหัสภาษาขนาดใหญ่เช่นนี้” นักวิจัยกล่าว “ในระดับหนึ่ง เราหวังว่าความพยายามโอเพนซอร์สของเราจะโน้มน้าวให้ผู้อื่นทำเช่นเดียวกัน แต่ภาพรวมก็คือ ชุมชนควรจะสามารถฝึกโมเดลเหล่านี้ได้ด้วยตัวเอง โมเดลของเราได้ก้าวข้ามขีดจำกัดของสิ่งที่คุณฝึกได้บนเซิร์ฟเวอร์เครื่องเดียว สิ่งที่ใหญ่กว่านั้นต้องการกลุ่มเซิร์ฟเวอร์ ซึ่งเพิ่มต้นทุนอย่างมาก”
ในที่สุด หากคุณสนใจที่จะทราบข้อมูลเพิ่มเติมคุณสามารถตรวจสอบรายละเอียดได้ในไฟล์ ลิงค์ต่อไปนี้