Copilot, GitHubs AI-assistent modtog stærk kritik fra open source-samfundet

For nogle dage siden Vi deler her på bloggen nyheden om Copilot, som er en kunstig intelligens-assistent til at skrive GitHub-kode og som jeg grundlæggende præsenterer som et hjælpeværktøj til programmører.

Selvom Copilot adskiller sig fra kodefuldførelsessystemer traditionel på grund af evnen til at danne ret komplekse kodeblokke, til færdige funktioner syntetiseret under hensyntagen til den aktuelle kontekst. Som Copilot er en AI-funktion, der har lært gennem flere millioner linjer kode og det genkender, hvad du planlægger ud fra definitionen af ​​en funktion osv.

Si bien Copilot repræsenterer en enorm tidsbesparelse på grund af dets indlæring af millioner af linjer kode, som er begyndt at vække frygt for, at værktøjet kan omgå open source-licenskrav og overtræde love om ophavsret.

Armin Ronacher, en fremhævet udvikler i open source-fællesskabet er han en af ​​de udviklere, der var frustreret over måden Copilot blev bygget på, siden han nævner, at han eksperimenterede med værktøjet og postede et skærmbillede på Twitter, hvori nævner, at det forekom mærkeligt for ham, at Copilot, et kunstig intelligensværktøj, der kommercialiseres, kan producere ophavsretligt beskyttet kode.

Før dette begyndte nogle udviklere at blive bekymrede for brug af offentlig kode til at træne værktøjets kunstige intelligens. En bekymring er, at hvis Copilot reproducerer store nok dele af eksisterende kode, kan det krænke ophavsretten eller hvidvaske åben kildekode til kommerciel brug uden den rette licens (dybest set et tveægget sværd).

Derudover det blev vist, at værktøjet også kan indeholde personlige oplysninger at udviklerne har offentliggjort og i et tilfælde, replikerede den meget citerede kode fra 1999 pc-spillet Quake III Arena, herunder feedback fra udvikler John Carmack.

Cole Garry, en Github-talsmand, afviste at kommentere, indhold for at henvise til virksomhedens eksisterende ofte stillede spørgsmål på Copilot-webstedet, som anerkender, at værktøjet kan producere tekstuddrag fra dine træningsdata.

Dette sker omkring 0.1 % af tiden, ifølge GitHub, normalt når brugere ikke giver tilstrækkelig kontekst omkring deres anmodninger, eller når problemet har en triviel løsning.

"Vi er i gang med at implementere et kildesporingssystem for at fange de sjældne tilfælde af kodeiteration på tværs af alle træningsdata, for at hjælpe dig med at træffe gode beslutninger i realtid. Med hensyn til GitHub Copilot-forslag," siger virksomhedens FAQ.

I mellemtiden argumenterede GitHubs administrerende direktør Nat Friedman, at træning af maskinlæringssystemer på offentlige data er fair use, mens han anerkender, at "intellektuel ejendom og kunstig intelligens vil være genstand for en interessant politisk diskussion." hvori virksomheden vil deltage aktivt.

I et af sine tweets skrev han:

"GitHub Copilot blev efter eget udsagn trænet i bjerge af GPL-kode, så jeg er ikke sikker på, hvordan dette ikke er en form for hvidvaskning af penge. Åben kildekode i kommercielle værker. Udtrykket "spiller normalt ikke de nøjagtige dele" er ikke særlig tilfredsstillende."

"Copyright dækker ikke kun copy and paste; dækker afledte værker. GitHub Copilot blev bygget på åben kildekode, og summen af ​​alt, hvad du ved, er taget fra den kode. Der er ingen mulig fortolkning af udtrykket "derivat", der ikke inkluderer dette," skrev han. "Den ældre generation af kunstig intelligens trænede på offentlige tekster og billeder, som er sværere at kræve ophavsret på, men denne er taget fra store værker med meget eksplicitte licenser testet af domstolene, så jeg ser frem til den uundgåelige/kollektive/masseaktion på denne."

Endelig er det tid til at vente på de handlinger, som GitHub vil tage for at ændre den måde, hvorpå Copilot trænes, da den måde, hvorpå den genererer koden før eller siden, i sidste ende kan sætte mere end én udvikler i problemer.


Efterlad din kommentar

Din e-mailadresse vil ikke blive offentliggjort. Obligatoriske felter er markeret med *

*

*

  1. Ansvarlig for dataene: Miguel Ángel Gatón
  2. Formålet med dataene: Control SPAM, management af kommentarer.
  3. Legitimering: Dit samtykke
  4. Kommunikation af dataene: Dataene vil ikke blive kommunikeret til tredjemand, undtagen ved juridisk forpligtelse.
  5. Datalagring: Database hostet af Occentus Networks (EU)
  6. Rettigheder: Du kan til enhver tid begrænse, gendanne og slette dine oplysninger.