PolyCoder, một mã nguồn mở tạo AI có thể vượt trội hơn Codex 

Tác giả: @Laurent - Fotolia.com

Hiện nay, Chúng tôi đã bắt đầu thấy sự gia tăng trong các giải pháp khác nhau mà họ đang bắt đầu cung cấp liên quan đến tạo mã bằng trí tuệ nhân tạo (AI) và lĩnh vực xử lý ngôn ngữ tự nhiên (NLP) đã mở đường cho một loạt các AI tạo mã trong các ngôn ngữ lập trình khác nhau.

Trong đó chúng ta có thể đánh dấu ví dụ GitHub Copilot, AlphaCode và Codex và bây giờ chúng tôi có thể thêm một giải pháp mới từ bàn tay của các nhà nghiên cứu tại Đại học Carnegie Mellon ai gần đây đã giới thiệu "PolyCoder", trình tạo mã dựa trên mô hình ngôn ngữ GPT-2 của OpenAI đã được đào tạo trên cơ sở dữ liệu mã 249 GB bằng 12 ngôn ngữ lập trình.

Giới thiệu về PolyCoder

Các tác giả của PolyCoder tuyên bố rằng nó là có khả năng viết C chính xác hơn bất kỳ mô hình nào đã biết, kể cả Codex.

Mã tạo AI, có thể viết mã nguồn bằng các ngôn ngữ lập trình khác nhau Ngay lập tức, nó hứa hẹn sẽ giảm chi phí phát triển phần mềm trong khi cho phép các nhà phát triển tập trung vào các nhiệm vụ ít lặp đi lặp lại và sáng tạo hơn.

PolyCoder được cung cấp bởi dữ liệu từ các kho GitHub khác nhau, bao gồm 12 ngôn ngữ lập trình phổ biến: C, C #, C ++, Go, Java, JavaScript, PHP, Python, Ruby, Rust, Scala và TypeScript.

Bộ dữ liệu chưa được lọc có tổng cộng 631 GB dữ liệu và 38,9 triệu tệp. Nhóm nghiên cứu nói rằng đã chọn đào tạo PolyCoder với GPT-2 do hạn chế về ngân sách. PolyCoder có sẵn dưới dạng mã nguồn mở và các nhà nghiên cứu hy vọng nó có thể dân chủ hóa nghiên cứu trong lĩnh vực tạo mã AI, lĩnh vực cho đến nay vẫn được thống trị bởi các công ty được tài trợ tốt.

Các nhà nghiên cứu tin rằng PolyCoder nó hoạt động tốt hơn các mô hình khác trong việc tạo mã bằng ngôn ngữ C. Tuy nhiên, Codex luôn vượt trội nó trong các ngôn ngữ khác. "PolyCoder vượt trội hơn hẳn Codex và tất cả các mô hình khác bằng ngôn ngữ C.

“Khi Copilot ra mắt trên GitHub vào mùa hè năm ngoái, rõ ràng là các mô hình mã ngôn ngữ rất lớn này có thể rất hữu ích trong việc trợ giúp các nhà phát triển và tăng năng suất của họ. Nhưng không có mô hình nào gần với quy mô đó được công bố rộng rãi ", các nhà nghiên cứu nói với VentureBeat qua email. “Vì vậy [PolyCoder] bắt đầu với việc Vincent cố gắng tìm ra đâu là mô hình lớn nhất có thể được đào tạo trên máy chủ phòng thí nghiệm của chúng tôi, cuối cùng là 2700 tỷ thông số… và mô hình đó là một giải đấu vượt trội so với các mô hình hướng mã khác mà chúng tôi có . đã được công bố rộng rãi vào thời điểm đó. "

Khi chỉ so sánh các mô hình nguồn mở, PolyCoder hoạt động tốt hơn mô hình GPT-Neo 2.7B có kích thước tương tự trong C, JavaScript, Rust, Scala và TypeScript. " họ chỉ ra Các nhà nghiên cứu CMU cho biết thêm: “Trong 11 ngôn ngữ khác, tất cả các mô hình mã nguồn mở khác, bao gồm cả mô hình của chúng tôi, kém hơn đáng kể (phức tạp hơn) so với Codex”.

Với điều này, PolyCoder được định vị là một giải pháp rất thú vị, vì trong khi các phòng thí nghiệm nghiên cứu như OpenAI của Elon Musk và DeepMind của Alphabet đã phát triển AI tạo mã mạnh mẽ, thì nhiều hệ thống thành công nhất lại không có sẵn trong mã nguồn mở. Các công ty có thu nhập thấp không có khả năng tiếp cận nó và tình trạng này hạn chế việc nghiên cứu của họ trong lĩnh vực này.

Ví dụ: dữ liệu đào tạo từ OpenAI Codex, hỗ trợ tính năng Copilot của GitHub, đã không được công khai, ngăn cản các nhà nghiên cứu tinh chỉnh mô hình AI hoặc nghiên cứu một số khía cạnh của nó, chẳng hạn như khả năng tương tác.

Các nhà nghiên cứu cho biết: “Các công ty công nghệ lớn không phát hành công khai các mô hình của họ, điều này thực sự đang kìm hãm nghiên cứu khoa học và quá trình dân chủ hóa các mô hình mã ngôn ngữ lớn như vậy”. “Ở một mức độ nào đó, chúng tôi hy vọng rằng những nỗ lực mã nguồn mở của chúng tôi sẽ thuyết phục những người khác cũng làm như vậy. Nhưng vấn đề lớn là cộng đồng có thể tự đào tạo những người mẫu này. Mô hình của chúng tôi đã đẩy giới hạn những gì bạn có thể đào tạo trên một máy chủ duy nhất - bất kỳ thứ gì lớn hơn đều yêu cầu một nhóm máy chủ, điều này làm tăng đáng kể chi phí ”.

Cuối cùng nếu bạn muốn biết thêm về nó, bạn có thể kiểm tra các chi tiết trong liên kết theo dõi.


Để lại bình luận của bạn

địa chỉ email của bạn sẽ không được công bố. Các trường bắt buộc được đánh dấu bằng *

*

*

  1. Chịu trách nhiệm về dữ liệu: Miguel Ángel Gatón
  2. Mục đích của dữ liệu: Kiểm soát SPAM, quản lý bình luận.
  3. Hợp pháp: Sự đồng ý của bạn
  4. Truyền thông dữ liệu: Dữ liệu sẽ không được thông báo cho các bên thứ ba trừ khi có nghĩa vụ pháp lý.
  5. Lưu trữ dữ liệu: Cơ sở dữ liệu do Occentus Networks (EU) lưu trữ
  6. Quyền: Bất cứ lúc nào bạn có thể giới hạn, khôi phục và xóa thông tin của mình.