Copilot, asystent AI w GitHub, spotkał się z ostrą krytyką społeczności open source

Kilka dni temu dzielimy się tutaj na blogu wiadomościami z Copilot, który jest kreatorem sztucznej inteligencji do pisania kodu GitHub i który w zasadzie przedstawiam jako narzędzie pomocy dla programistów.

Chociaż drugi pilotpi różni się od systemów uzupełniania kodu tradycyjne ze względu na możliwość tworzenia dość skomplikowanych bloków kodu, aż po gotowe do użycia funkcje syntetyzowane z uwzględnieniem aktualnego kontekstu. Tak jak Copilot to funkcja AI, która uczy się przez kilka milionów wierszy kodu i rozpoznaje to, co planujesz na podstawie definicji funkcji itp.

Podczas Drugi pilot to świetna oszczędność czasu ze względu na poznanie milionów wierszy kodu, co zaczęło budzić obawy, że narzędzie może obejść wymagania licencyjne open source i naruszyć prawa autorskie.

Armin Ronacher, wybitny deweloper w społeczności open source jest jednym z programistów, którzy: był sfrustrowany sposobem, w jaki zbudowano Copilot, jak wspomina, że ​​eksperymentował z narzędziem i opublikował zrzut ekranu na Twitterze, w którym wspomina, że ​​wydawało mu się dziwne, że drugi pilot, komercjalizowane narzędzie sztucznej inteligencji, może tworzyć kod chroniony prawem autorskim.

W związku z tym niektórzy programiści zaczęli się niepokoić za pomocą publicznego kodu do trenowania sztucznej inteligencji narzędzia. Jedną z obaw jest to, że jeśli Copilot odtworzy wystarczająco duże fragmenty istniejącego kodu, może naruszyć prawa autorskie lub wyprać kod open source do użytku komercyjnego bez odpowiedniej licencji (w zasadzie miecz obosieczny).

Ponadto, wykazano, że narzędzie może zawierać również dane osobowe opublikowane przez deweloperów i w jednym przypadku, replikował powszechnie cytowany kod z gry komputerowej Quake III Arena z 1999 roku, w tym komentarze od programisty Johna Carmacka.

Cole Garry, rzecznik Github, odmówił komentarza i zadowolił się odniesieniem do istniejących często zadawanych pytań firmy na stronie Copilot, które potwierdzają, że narzędzie może generować fragmenty tekstu z danych treningowych.

Według GitHub zdarza się to w około 0.1% przypadków, zwykle gdy użytkownicy nie zapewniają wystarczającego kontekstu wokół swoich żądań lub gdy problem ma trywialne rozwiązanie.

„Jesteśmy w trakcie wdrażania systemu śledzenia pochodzenia, który wykrywa rzadkie przypadki powtarzania się kodu we wszystkich danych treningowych, aby pomóc Ci podejmować dobre decyzje w czasie rzeczywistym. Odnośnie sugestii GitHub Copilot ”- mówi FAQ firmy.

Tymczasem dyrektor generalny GitHub, Nat Friedman, przekonywał, że szkolenie systemów uczenia maszynowego na danych publicznych jest uzasadnionym zastosowaniem, jednocześnie przyznając, że „własność intelektualna i sztuczna inteligencja będą przedmiotem interesującej dyskusji politycznej”, w której firma będzie aktywnie uczestniczyć.

W jednym ze swoich tweetów napisał:

„GitHub Copilot został, jak sam przyznaje, zbudowany na górach kodu GPL, więc nie jestem pewien, dlaczego nie jest to forma prania pieniędzy. Otwarty kod źródłowy w pracach komercyjnych. Sformułowanie „zwykle nie odwzorowuje dokładnych kawałków” nie jest zbyt zadowalające”.

„Prawa autorskie obejmują nie tylko kopiowanie i wklejanie; obejmuje prace pochodne. GitHub Copilot został utworzony w otwartym kodzie źródłowym, a suma wszystkiego, co wiesz, pochodzi z tego kodu. Nie ma możliwej interpretacji terminu „pochodny”, która by tego nie obejmowała” – napisał. „Starsza generacja AI była szkolona w publicznych tekstach i zdjęciach, do których trudniej domagać się praw autorskich, ale jest to zaczerpnięte ze świetnych dzieł z bardzo wyraźnymi licencjami testowanymi przez sądy, więc nie mogę się doczekać nieuniknionego kolektywu/masy działania w tej sprawie ”.

Na koniec musimy poczekać na działania, które GitHub podejmie w celu zmodyfikowania sposobu, w jaki Copilot jest trenowany, ponieważ ostatecznie prędzej czy później sposób, w jaki generuje kod, może sprawić kłopoty więcej niż jednemu programiście.


Treść artykułu jest zgodna z naszymi zasadami etyka redakcyjna. Aby zgłosić błąd, kliknij tutaj.

Bądź pierwszym który skomentuje

Zostaw swój komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *

*

*

  1. Odpowiedzialny za dane: Miguel Ángel Gatón
  2. Cel danych: kontrola spamu, zarządzanie komentarzami.
  3. Legitymacja: Twoja zgoda
  4. Przekazywanie danych: Dane nie będą przekazywane stronom trzecim, z wyjątkiem obowiązku prawnego.
  5. Przechowywanie danych: baza danych hostowana przez Occentus Networks (UE)
  6. Prawa: w dowolnym momencie możesz ograniczyć, odzyskać i usunąć swoje dane.