PolyCoder, ein Open-Source-Code, der KI generiert, der Codex übertreffen könnte 

Autor: @Laurent - Fotolia.com

Derzeit Wir haben begonnen, eine Zunahme zu sehen die verschiedenen Lösungen, die sie beginnen, in Bezug auf die anzubieten Codegenerierung mit künstlicher Intelligenz (AI) und das Gebiet der Verarbeitung natürlicher Sprache (NLP) hat den Weg für eine Reihe von Code generierenden KIs in verschiedenen Programmiersprachen geebnet.

Von welchem Wir können zum Beispiel GitHub Copilot, AlphaCode und Codex hervorheben und zu der wir nun eine neue Lösung aus der Hand der hinzufügen können Forscher an der Carnegie Mellon University die kürzlich eingeführter "PolyCoder", ein Codegenerator basierend auf dem GPT-2-Sprachmodell von OpenAI, der auf einer 249-GB-Codedatenbank in 12 Programmiersprachen trainiert wurde.

Über PolyCoder

Die Autoren von PolyCoder behaupten, dass dies der Fall ist in der Lage, C genauer zu schreiben als jedes bekannte Modell, einschließlich Codex.

Die Code generierende KI, können Quellcode in verschiedenen Programmiersprachen schreiben Auf Anhieb verspricht es, die Kosten für die Softwareentwicklung zu senken, während sich die Entwickler auf weniger repetitive, kreative Aufgaben konzentrieren können.

PolyCoder basiert auf Daten aus verschiedenen GitHub-Repositories, die 12 gängige Programmiersprachen abdecken: C, C#, C++, Go, Java, JavaScript, PHP, Python, Ruby, Rust, Scala und TypeScript.

Der ungefilterte Datensatz umfasste insgesamt 631 GB Daten und 38,9 Millionen Dateien. Das hat die Mannschaft gesagt entschied sich aufgrund von Budgetbeschränkungen dafür, PolyCoder mit GPT-2 zu trainieren. PolyCoder ist als Open Source verfügbar, und die Forscher hoffen, dass es die Forschung im Bereich der KI-Codegenerierung demokratisieren kann, die bisher von kapitalstarken Unternehmen dominiert wird.

Die Forscher glauben, dass PolyCoder Es funktioniert besser als andere Modelle beim Generieren von Code in der Sprache C. Codex hat es jedoch in anderen Sprachen immer übertroffen. "PolyCoder übertrifft Codex und alle anderen Modelle in der C-Sprache erheblich.

„Als Copilot letzten Sommer auf GitHub veröffentlicht wurde, wurde klar, dass diese sehr großen Sprachcodemodelle sehr nützlich sein können, um Entwicklern zu helfen und ihre Produktivität zu steigern. Aber kein Modell auch nur annähernd in dieser Größenordnung war öffentlich verfügbar“, teilten die Forscher VentureBeat per E-Mail mit. „Also begann [PolyCoder] damit, dass Vincent versuchte herauszufinden, welches das größte Modell war, das auf unserem Laborserver trainiert werden konnte, was schließlich 2700 Milliarden Parameter ausmachte … und dieses Modell war anderen Code-orientierten Modellen, die wir hatten, eine Liga voraus . waren damals öffentlich zugänglich.“

Vergleicht man nur die Open-Source-Modelle, PolyCoder übertrifft das ähnlich große GPT-Neo 2.7B-Modell in C, JavaScript, Rust, Scala und TypeScript." sie weisen darauf hin „In den anderen 11 Sprachen sind alle anderen Open-Source-Modelle, einschließlich unseres eigenen, deutlich schlechter (größere Ratlosigkeit) als Codex“, fügten die CMU-Forscher hinzu.

Damit positioniert sich PolyCoder als sehr interessante Lösung, denn obwohl Forschungslabore wie OpenAI von Elon Musk und DeepMind von Alphabet leistungsstarke Code-generierende KI entwickelt haben, sind viele der erfolgreichsten Systeme nicht in Open Source verfügbar. Unternehmen mit niedrigem Einkommen haben keinen Zugang dazu, und diese Situation schränkt ihre Forschung auf diesem Gebiet ein.

Beispielsweise wurden Trainingsdaten aus dem OpenAI-Codex, der die Copilot-Funktion von GitHub antreibt, nicht veröffentlicht, was Forscher daran hindert, das KI-Modell zu verfeinern oder bestimmte Aspekte davon zu untersuchen, wie z. B. die Interoperabilität.

„Große Technologieunternehmen veröffentlichen ihre Modelle nicht öffentlich, was die wissenschaftliche Forschung und die Demokratisierung solch großer Sprachcodemodelle wirklich behindert“, sagten die Forscher. „Bis zu einem gewissen Grad hoffen wir, dass unsere Open-Source-Bemühungen andere davon überzeugen werden, dasselbe zu tun. Aber das große Ganze ist, dass die Community in der Lage sein sollte, diese Modelle selbst zu trainieren. Unser Modell hat die Grenze dessen, was Sie auf einem einzelnen Server trainieren können, überschritten – alles Größere erfordert einen Pool von Servern, was die Kosten dramatisch erhöht.“

Schließlich wenn Sie mehr darüber wissen möchtenkönnen Sie die Details in der überprüfen folgenden Link


Hinterlasse einen Kommentar

Ihre E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind markiert mit *

*

*

  1. Verantwortlich für die Daten: Miguel Ángel Gatón
  2. Zweck der Daten: Kontrolle von SPAM, Kommentarverwaltung.
  3. Legitimation: Ihre Zustimmung
  4. Übermittlung der Daten: Die Daten werden nur durch gesetzliche Verpflichtung an Dritte weitergegeben.
  5. Datenspeicherung: Von Occentus Networks (EU) gehostete Datenbank
  6. Rechte: Sie können Ihre Informationen jederzeit einschränken, wiederherstellen und löschen.