Copilot, trợ lý AI của GitHub nhận chỉ trích mạnh mẽ từ cộng đồng mã nguồn mở

Vài ngày trước chúng tôi chia sẻ ở đây trên blog tin tức của Copilot, là một trình hướng dẫn trí tuệ nhân tạo để viết mã GitHub và về cơ bản tôi trình bày như một công cụ trợ giúp cho các lập trình viên.

Mặc dù Copilot khác với hệ thống hoàn thành mã truyền thống vì khả năng hình thành các khối mã khá phức tạp, đến các hàm tạo sẵn được tổng hợp có tính đến bối cảnh hiện tại. Như Copilot là một chức năng AI đã học qua vài triệu dòng mã và nó nhận ra những gì bạn đang lập kế hoạch dựa trên định nghĩa của một chức năng, v.v.

Trong khi Copilot đại diện cho một trình tiết kiệm thời gian tuyệt vời do nó đã học hàng triệu dòng mã, điều này đã bắt đầu làm dấy lên lo ngại rằng công cụ này có thể phá vỡ các yêu cầu cấp phép nguồn mở và vi phạm luật bản quyền.

Armin Ronacher, một nhà phát triển nổi bật trong cộng đồng nguồn mở, anh ấy là một trong những nhà phát triển thất vọng với cách xây dựng Copilot, khi anh ấy đề cập rằng anh ấy đã thử nghiệm với công cụ và đăng một ảnh chụp màn hình trên Twitter, trong đó đề cập rằng có vẻ lạ đối với anh ta rằng Copilot, một công cụ trí tuệ nhân tạo được thương mại hóa, có thể tạo ra mã có bản quyền.

Với điều này, một số nhà phát triển bắt đầu cảnh giác bằng cách sử dụng mã công khai để đào tạo trí thông minh nhân tạo của công cụ. Một mối quan tâm là nếu Copilot sao chép các đoạn mã hiện có đủ lớn, nó có thể vi phạm bản quyền hoặc rửa mã nguồn mở để sử dụng cho mục đích thương mại mà không có giấy phép thích hợp (về cơ bản là một con dao hai lưỡi).

Bên cạnh đó, cho thấy rằng công cụ này cũng có thể bao gồm thông tin cá nhân được xuất bản bởi các nhà phát triển và trong một trường hợp, sao chép mã được trích dẫn rộng rãi từ trò chơi PC năm 1999 Quake III Arena, bao gồm cả nhận xét từ nhà phát triển John Carmack.

Cole Garry, người phát ngôn của Github, đã từ chối bình luận và bằng lòng tham khảo Câu hỏi thường gặp hiện có của công ty trên trang web Copilot, thừa nhận rằng công cụ này có thể tạo ra các đoạn văn bản từ dữ liệu đào tạo của bạn.

Điều này xảy ra khoảng 0.1% thời gian, theo GitHub, thường là khi người dùng không cung cấp đủ ngữ cảnh xung quanh yêu cầu của họ hoặc khi vấn đề có một giải pháp nhỏ.

“Chúng tôi đang trong quá trình triển khai hệ thống theo dõi nguồn gốc để phát hiện các trường hợp lặp lại mã hiếm gặp trong tất cả dữ liệu đào tạo, nhằm giúp bạn đưa ra quyết định đúng đắn trong thời gian thực. Về các đề xuất của GitHub Copilot, ”Câu hỏi thường gặp của công ty cho biết.

Trong khi đó, CEO Nat Friedman của GitHub cho rằng việc đào tạo hệ thống học máy trên dữ liệu công khai là cách sử dụng hợp pháp, đồng thời thừa nhận rằng “sở hữu trí tuệ và trí tuệ nhân tạo sẽ là chủ đề của một cuộc thảo luận chính trị thú vị” mà công ty sẽ tích cực tham gia.

Trong một dòng tweet của mình, anh ấy đã viết:

“GitHub Copilot, theo sự thừa nhận của riêng mình, được xây dựng trên hàng núi mã GPL, vì vậy tôi không chắc đây không phải là một hình thức rửa tiền như thế nào. Mã nguồn mở trong các công trình thương mại. Cụm từ "không thường tái tạo các mảnh chính xác" không phải là rất thỏa đáng ".

“Bản quyền không chỉ bao gồm việc sao chép và dán; bao gồm các tác phẩm phái sinh. GitHub Copilot được xây dựng trên mã nguồn mở và tổng tất cả mọi thứ bạn biết đều được lấy từ mã đó. Không có cách giải thích nào về thuật ngữ 'có nguồn gốc' không bao gồm điều này, 'ông viết. “Thế hệ AI cũ hơn được đào tạo về văn bản và ảnh công khai, do đó khó đòi bản quyền hơn, nhưng cái này được lấy từ những tác phẩm tuyệt vời với giấy phép rất rõ ràng đã được tòa án kiểm tra, vì vậy tôi rất mong sự không tránh khỏi / tập thể / hành động lớn về điều này ”.

Cuối cùng, chúng ta phải đợi các hành động mà GitHub sẽ thực hiện để sửa đổi cách mà Copilot được đào tạo, vì cuối cùng, sớm hay muộn cách nó tạo mã có thể khiến nhiều nhà phát triển gặp rắc rối.


Nội dung bài viết tuân thủ các nguyên tắc của chúng tôi về đạo đức biên tập. Để báo lỗi, hãy nhấp vào đây.

Hãy là người đầu tiên nhận xét

Để lại bình luận của bạn

địa chỉ email của bạn sẽ không được công bố. Các trường bắt buộc được đánh dấu bằng *

*

*

  1. Chịu trách nhiệm về dữ liệu: Miguel Ángel Gatón
  2. Mục đích của dữ liệu: Kiểm soát SPAM, quản lý bình luận.
  3. Hợp pháp: Sự đồng ý của bạn
  4. Truyền thông dữ liệu: Dữ liệu sẽ không được thông báo cho các bên thứ ba trừ khi có nghĩa vụ pháp lý.
  5. Lưu trữ dữ liệu: Cơ sở dữ liệu do Occentus Networks (EU) lưu trữ
  6. Quyền: Bất cứ lúc nào bạn có thể giới hạn, khôi phục và xóa thông tin của mình.