Copilot, GitHubs AI-assistent mottok sterk kritikk fra open source-fellesskapet

For noen dager siden vi deler her på bloggen nyheten om Copilot, som er en kunstig intelligens-veiviser for å skrive GitHub-kode og som jeg i utgangspunktet presenterer som et hjelpeverktøy for programmerere.

Selv om Copilot skiller seg fra kodesystemer tradisjonell på grunn av evnen til å danne ganske komplekse kodeblokker, opp til bruksklare funksjoner syntetisert med tanke på den nåværende konteksten. Som Copilot er en AI-funksjon som har lært gjennom flere millioner kodelinjer og den gjenkjenner hva du planlegger basert på definisjonen av en funksjon osv.

Si bien Copilot representerer en god tidsbesparelse på grunn av sin læring av millioner av kodelinjer, som har begynt å vekke frykt for at verktøyet kan omgå lisensieringskrav for åpen kildekode og bryte lovene om opphavsrett.

Armin Ronacher, en fremtredende utvikler i open source-fellesskapet er han en av utviklerne som ble frustrert over måten Copilot ble bygget på, som han nevner at han eksperimenterte med verktøyet og la ut et skjermbilde på Twitter der nevner at det virket rart for ham at Copilot, et kunstig intelligensverktøy som er kommersialisert, kunne produsere opphavsrettsbeskyttet kode.

Gitt dette begynte noen utviklere å bli skremt ved bruk av offentlig kode for å trene verktøyets kunstige intelligens. En bekymring er at hvis Copilot reproduserer store nok biter av eksisterende kode, kan det krenke copyright eller hvitvaskere åpen kildekode for kommersiell bruk uten riktig lisens (i utgangspunktet et tveegget sverd).

Videre det ble vist at verktøyet også kan inneholde personlig informasjon publisert av utviklerne og i ett tilfelle, replikerte den mye siterte koden fra PC-spillet Quake III Arena fra 1999, inkludert kommentarer fra utvikler John Carmack.

Cole Garry, en talsmann for Github, nektet å kommentere og nøyde seg med å henvise til selskapets eksisterende vanlige spørsmål på Copilot-nettstedet, som erkjenner at verktøyet kan produsere tekstutdrag fra treningsdataene dine.

Dette skjer omtrent 0.1% av tiden, ifølge GitHub, vanligvis når brukere ikke gir nok kontekst rundt sine forespørsler, eller når problemet har en triviell løsning.

“Vi er i ferd med å implementere et originalsporingssystem for å oppdage de sjeldne forekomster av kode som gjentas i alle treningsdata, for å hjelpe deg med å ta gode beslutninger i sanntid. Når det gjelder GitHub Copilot-forslag, ”heter selskapets vanlige spørsmål.

I mellomtiden hevdet GitHub-sjef Nat Friedman at opplæring av maskinlæringssystemer på offentlige data er en legitim bruk, samtidig som han erkjenner at "intellektuell eiendom og kunstig intelligens vil være gjenstand for en interessant politisk diskusjon." Der selskapet vil delta aktivt.

I en av tweets skrev han:

“GitHub Copilot ble, etter eget innlegg, bygget på fjell med GPL-kode, så jeg er ikke sikker på hvordan dette ikke er en form for hvitvasking av penger. Åpen kildekode i kommersielle verk. Uttrykket "reproduserer vanligvis ikke de eksakte brikkene" er ikke veldig tilfredsstillende.

“Opphavsretten dekker ikke bare kopiering og liming; dekker avledede verk. GitHub Copilot ble dannet i åpen kildekode, og summen av alt du vet er hentet fra den koden. Det er ingen mulig tolkning av begrepet 'avledet' som ikke inkluderer dette, 'skrev han. “Den eldre generasjonen av AI ble trent i offentlige tekster og bilder, som det er vanskeligere å kreve opphavsrett til, men dette er hentet fra flotte verk med meget eksplisitte lisenser testet av domstolene, så jeg ser frem til det uunngåelige kollektive / massive handlinger på dette ”.

Til slutt må vi vente på handlingene som GitHub vil ta for å endre måten Copilot blir trent på, siden til slutt, før eller siden måten den genererer koden på kan sette mer enn én utvikler i trøbbel.


Legg igjen kommentaren

Din e-postadresse vil ikke bli publisert. Obligatoriske felt er merket med *

*

*

  1. Ansvarlig for dataene: Miguel Ángel Gatón
  2. Formålet med dataene: Kontroller SPAM, kommentaradministrasjon.
  3. Legitimering: Ditt samtykke
  4. Kommunikasjon av dataene: Dataene vil ikke bli kommunisert til tredjeparter bortsett fra ved juridisk forpliktelse.
  5. Datalagring: Database vert for Occentus Networks (EU)
  6. Rettigheter: Når som helst kan du begrense, gjenopprette og slette informasjonen din.