Copilot, de AI-assistent van GitHub, kreeg felle kritiek van de open source-gemeenschap

Een paar dagen geleden we delen hier op de blog het nieuws van Copilot, een wizard voor kunstmatige intelligentie voor het schrijven van GitHub-code en die ik in feite presenteer als een hulpmiddel voor programmeurs.

Ook al Copiloot verschilt van code-aanvullingssystemen traditioneel voor de mogelijkheid om vrij complexe codeblokken te vormen, tot kant-en-klare functies die zijn gesynthetiseerd rekening houdend met de huidige context. Net zo Copilot is een AI-functie die geleerd heeft door middel van enkele miljoenen regels code en het herkent wat u van plan bent op basis van de definitie van een functie, enz.

Si bien Copilot betekent een geweldige tijdsbesparing vanwege het leren van miljoenen regels code, wat de vrees begon te wekken dat de tool open source-licentievereisten zou kunnen omzeilen en de auteursrechtwetten zou schenden.

Armin Ronacher, een prominente ontwikkelaar in de open source-gemeenschap is hij een van de ontwikkelaars die gefrustreerd raakte over de manier waarop Copilot werd gebouwd, terwijl hij vermeldt dat hij met de tool heeft geëxperimenteerd en een screenshot op Twitter heeft geplaatst waarin: vermeldt dat het hem vreemd leek dat Copiloot, een kunstmatige-intelligentietool die wordt gecommercialiseerd, auteursrechtelijk beschermde code kan produceren.

Daarom begonnen sommige ontwikkelaars gealarmeerd te worden door het gebruik van openbare code om de kunstmatige intelligentie van de tool te trainen. Een punt van zorg is dat als Copilot grote genoeg stukken bestaande code reproduceert, het inbreuk zou kunnen maken op het auteursrecht of open source-code voor commercieel gebruik zou kunnen witwassen zonder de juiste licentie (in feite een tweesnijdend zwaard).

Bovendien heeft er is aangetoond dat de tool ook persoonlijke informatie kan bevatten gepubliceerd door de ontwikkelaars en in één geval, repliceerde de veel geciteerde code uit de pc-game Quake III Arena uit 1999, inclusief opmerkingen van ontwikkelaar John Carmack.

Cole Garry, een Github-woordvoerder, weigerde commentaar te geven en verwees tevreden naar de bestaande FAQ van het bedrijf op de Copilot-website, waarin wordt erkend dat de tool tekstfragmenten kan produceren van uw trainingsgegevens.

Dit gebeurt volgens GitHub ongeveer 0.1% van de tijd, meestal wanneer gebruikers niet genoeg context bieden rond hun verzoeken of wanneer het probleem een ​​triviale oplossing heeft.

“We zijn bezig met de implementatie van een oorsprongvolgsysteem om de zeldzame gevallen van codeherhaling in alle trainingsgegevens te detecteren, zodat u in realtime goede beslissingen kunt nemen. Met betrekking tot GitHub Copilot-suggesties, "zegt de veelgestelde vragen van het bedrijf".

Ondertussen voerde GitHub-CEO Nat Friedman aan dat het trainen van machine learning-systemen op openbare gegevens een legitiem gebruik is, terwijl hij erkent dat "intellectueel eigendom en kunstmatige intelligentie het onderwerp zullen zijn van een interessante politieke discussie." waaraan het bedrijf actief zal deelnemen.

In een van zijn tweets schreef hij:

“GitHub Copilot was, naar eigen zeggen, gebouwd op bergen GPL-code, dus ik weet niet zeker hoe dit geen vorm van witwassen van geld is. Open source code in commerciële werken. De zinsnede "geeft gewoonlijk niet de exacte stukken weer" is niet erg bevredigend ".

“Copyright geldt niet alleen voor kopiëren en plakken; omvat afgeleide werken. GitHub Copilot is gebouwd op open source-code en het totaal van alles wat je weet is afkomstig uit die code. Er is geen mogelijke interpretatie van de term 'afgeleid' die dit niet omvat', schreef hij. "De oudere generatie AI is getraind in openbare teksten en foto's, waarop het moeilijker is om auteursrechten te claimen, maar dit is afkomstig van geweldige werken met zeer expliciete licenties die zijn getest door de rechtbanken, dus ik kijk uit naar de onvermijdelijke collectieve / massale acties op dit ”.

Ten slotte moeten we wachten op de acties die GitHub zal ondernemen om de manier waarop Copilot wordt getraind aan te passen, omdat uiteindelijk, vroeg of laat, de manier waarop het de code genereert, meer dan één ontwikkelaar in de problemen kan brengen.


Laat je reactie achter

Uw e-mailadres wordt niet gepubliceerd. Verplichte velden zijn gemarkeerd met *

*

*

  1. Verantwoordelijk voor de gegevens: Miguel Ángel Gatón
  2. Doel van de gegevens: Controle SPAM, commentaarbeheer.
  3. Legitimatie: uw toestemming
  4. Mededeling van de gegevens: De gegevens worden niet aan derden meegedeeld, behalve op grond van wettelijke verplichting.
  5. Gegevensopslag: database gehost door Occentus Networks (EU)
  6. Rechten: u kunt uw gegevens op elk moment beperken, herstellen en verwijderen.