BlazingSQL hat seinen Quellcode für die Verwendung von GPUS zur Beschleunigung der Datenverarbeitung veröffentlicht

Ein neues Open-Source-Projekt möchte die Analytik auf die nächste Ebene bringen und ist, dass die Menschen dahinter stehen BlazingSQL gab kürzlich bekannt, dass es den Quellcode für seine SQL-Engine veröffentlicht hat. Dies wird in GPUs verwendet, um die Datenverarbeitung zu beschleunigen. BlazingSQL ist kein vollständiges DBMS, aber es ist als Engine zur Analyse und Verarbeitung großer Datenmengen positioniert, die in ihren Aufgaben mit Apache Spark vergleichbar sind.

Für diejenigen, die mit BlazingSQL nicht vertraut sind, sollte das bekannt sein Dies ist eine GPU-beschleunigte SQL-Engine, die auf dem RAPIDS-Ökosystem basiert Hierbei handelt es sich um eine Reihe von Open-Source-Softwarebibliotheken zum Ausführen von End-to-End-Analyse- und Data-Science-Pipelines auf GPUs.

Nach Angaben des Teams, BlazingSQL wurde entwickelt, um die Kosten, die Komplexität und das langsame Tempo zu berücksichtigen, mit denen Benutzer bei der Arbeit in großen Baugruppen konfrontiert sind von Dateien. BlazingSQL eignet sich für die Durchführung einzelner analytischer Abfragen für große Datenmengen (zig Gigabyte), die in Tabellenformaten (z. B. Protokolle, NetFlow-Statistiken usw.) gespeichert sind.

Um mit der GPU zu arbeiten, wird ab eine Reihe von RAPIDS-Bibliotheken verwendetEinige wurden unter Einbeziehung von NVIDIA entwickelt, sodass Sie Datenverarbeitungs- und Analyseanwendungen erstellen können, die vollständig auf der GPU-Seite ausgeführt werden (eine Python-Schnittstelle zur Verwendung von CUDA-Grundelementen auf niedriger Ebene und parallelen Berechnungen wird bereitgestellt).

BlazingSQL bietet die Möglichkeit, SQL anstelle der API zu verwenden cuUDF-Datenverarbeitung (basierend auf Apache Arrow), die von RAPIDS verwendet wird. BlazingSQL ist eine zusätzliche Ebene, die auf cuDF ausgeführt wird und die cuIO-Bibliothek zum Lesen von Daten von der Festplatte verwendet.

SQL-Abfragen sind In cuUDF-Funktionsaufrufe übersetzen, mit denen Daten auf die GPU geladen werden können und führen Sie Zusammenführungs-, Aggregations- und Filtervorgänge für sie aus. Unterstützt die Erstellung verteilter Konfigurationen, die Tausende von GPUs umfassen.

Mit Mit SQL können RAPIDS in vorhandene Analysesysteme integriert werden, ohne dass Prozessoren geschrieben werden müssen ohne auf das Zwischenladen von Daten in ein zusätzliches DBMS zurückzugreifen, während die vollständige Kompatibilität mit allen Teilen von RAPIDS erhalten bleibt, vorhandene Funktionen in SQL übersetzt und die Leistung auf cuDF-Ebene sichergestellt werden. Beinhaltet Unterstützung für die Integration in die XGBoost- und cuML-Bibliotheken zur Lösung von Aufgaben des maschinellen Lernens und der Analyse.

BlazingSQL kann Abfragen von Flatfiles in den Formaten CSV und Apache Parquet ausführen Befindet sich auf Netzwerk- und Cloud-Systemen wie HDSF und AWS S3 und überträgt das Ergebnis direkt in den GPU-Speicher.

Dank der Parallelisierungsvorgänge auf der GPU und der Verwendung eines schnelleren Videospeichers ist die Abfrageausführung in BlazingSQL bis zu 20-mal schneller als in Apache Spark.

BlazingSQL vereinfacht die Arbeit mit Daten erheblich - anstelle von Hunderten von cuDF-Funktionsaufrufen können Sie dies mit einer einzigen SQL-Abfrage tun.

"BlazingSQL begegnet diesen Kundenproblemen nicht nur mit einer unglaublich schnellen, verteilten SQL-GPU-Engine, sondern auch mit einem eifrigen Fokus auf Einfachheit", schrieb Rodrigo Aramburu, CEO von BlazingSQL, in einem nachfolgenden Blog. "Mit nur wenigen Codezeilen kann BlazingSQL Ihre Rohdaten abfragen, wo immer sie sich befinden, und mit Ihrem vorhandenen RAPIDS- und Analytics-Stack zusammenarbeiten."

Mit BlazingSQL können Benutzer Enterprise Data Lake-Datensätze direkt im GPU-Speicher als GPU DataFrame (GDF) abfragen. GDF ist ein Projekt, das Unterstützung für die Interoperabilität zwischen GPU-Anwendungen bietet. Es definiert auch eine gemeinsame GPU-Speicherdatenschicht.

"Durch die Nutzung von Apache Arrow auf GPUs und die Integration in Dask wird BlazingSQL die Open Source-Funktionalität erweitern und die nächste Welle der Interoperabilität im schnelllebigen Data Science-Ökosystem vorantreiben."

Für diejenigen, die interessiert sind, sollte das wissen Der Code ist in C ++ mit einer Python-Oberfläche für Benutzer geschrieben und Open Source steht unter der Apache 2.0-Lizenz.

Der Link ist dies.

DesdeLinux

BlazingSQL hat seinen Quellcode für die Verwendung von GPUS veröffentlicht, um die Datenverarbeitung zu beschleunigen

Hinterlasse einen Kommentar Antwort abbrechen