Společnost BlazingSQL vydala svůj zdrojový kód pro použití GPUS k urychlení zpracování dat

Nový projekt s otevřeným zdrojovým kódem chce posunout analytiku na další úroveň a je to lidé v pozadí BlazingSQL nedávno oznámila, že vydala zdrojový kód pro svůj SQL engine, který se používá v GPU k urychlení zpracování dat. BlazingSQL není úplný DBMS, ale je umístěn jako motor pro analýzu a zpracování velkých datových souborů, srovnatelný ve svých úkolech s Apache Spark.

Pro ty, kteří BlazingSQL neznají, by to měli vědět jedná se o GPU akcelerovaný SQL engine postavený na ekosystému RAPIDS což je sada knihoven softwaru s otevřeným zdrojovým kódem pro spouštění komplexních analytických a datových vědeckých kanálů na GPU.

Podle týmu BlazingSQL byl vytvořen za účelem řešení nákladů, složitosti a pomalého tempa, které uživatelé zažívají při práci ve velkých sestavách dat. BlazingSQL je vhodný pro provádění jednotlivých analytických dotazů na velké datové soubory (desítky gigabajtů) uložené v tabulkových formátech (např. Protokoly, statistiky NetFlow atd.).

Pro práci s GPU se používá sada knihoven RAPIDS abNěkteré byly vyvinuty se zapojením NVIDIA a umožňují vám vytvářet aplikace pro zpracování a analýzu dat, které běží zcela na straně GPU (k použití primitiv CUDA na nízké úrovni a paralelních výpočtů je k dispozici rozhraní Pythonu).

BlazingSQL poskytuje možnost používat místo API rozhraní SQL zpracování dat cuUDF (založené na Apache Arrow) používané programem RAPIDS. BlazingSQL je další vrstva, která běží nad cuDF a používá knihovnu cuIO ke čtení dat z disku.

SQL dotazy jsou přeložit do volání funkce cuUDF, která umožňují načtení dat do GPU a provádět na nich slučovací, agregační a filtrační operace. Podporuje vytváření distribuovaných konfigurací zahrnujících tisíce GPU.

Použití SQL umožňuje integraci RAPIDS se stávajícími analytickými systémy bez psaní procesorů aniž by se uchýlil k mezilehlému načítání dat do dalšího DBMS, při zachování plné kompatibility se všemi částmi RAPIDS, převodu stávajících funkcí do SQL a zajištění výkonu na úrovni cuDF. Zahrnuje podporu integrace s knihovnami XGBoost a cuML pro řešení úloh strojového učení a analýzy.

BlazingSQL může spouštět dotazy z plochých souborů ve formátech CSV a Apache Parquet umístěné v síťových a cloudových systémech, jako jsou HDSF a AWS S3, přímo přenášející výsledek do paměti GPU.

Díky paralelizačním operacím na GPU a využití rychlejší grafické paměti je provádění dotazů v BlazingSQL až 20krát rychlejší než v Apache Spark.

BlazingSQL výrazně zjednodušuje práci s daty - místo stovek volání funkcí cuDF to můžete udělat pomocí jediného dotazu SQL.

„BlazingSQL řeší tyto obavy zákazníků nejen díky neuvěřitelně rychlému, distribuovanému SQL GPU enginu, ale také horlivému zaměření na jednoduchost,“ napsal Rodrigo Aramburu, generální ředitel BlazingSQL, v následujícím blogu. „S několika řádky kódu může BlazingSQL dotazovat vaše nezpracovaná data, ať jsou kdekoli, a spolupracovat s vašimi stávajícími RAPIDY a analytickými zásobníky.“

BlazingSQL umožňuje uživatelům dotazovat se na datové sady podnikových datových jezer přímo v paměti GPU jako GPU DataFrame (GDF). GDF je projekt, který nabízí podporu interoperability mezi aplikacemi GPU. Rovněž definuje běžnou datovou vrstvu paměti GPU.

„Využitím Apache Arrow na GPU a integrací s Dask rozšíří BlazingSQL funkcionalitu otevřeného zdroje a posune další vlnu interoperability v rychle se rozvíjejícím ekosystému vědy o datech.“

Pro ty, kteří mají zájem, by to měli vědět kód je napsán v C ++ s pythonovým rozhraním pro uživatele a open source podléhá licenci Apache 2.0.

Odkaz je tento.


Zanechte svůj komentář

Vaše e-mailová adresa nebude zveřejněna. Povinné položky jsou označeny *

*

*

  1. Odpovědný za údaje: Miguel Ángel Gatón
  2. Účel údajů: Ovládací SPAM, správa komentářů.
  3. Legitimace: Váš souhlas
  4. Sdělování údajů: Údaje nebudou sděleny třetím osobám, s výjimkou zákonných povinností.
  5. Úložiště dat: Databáze hostovaná společností Occentus Networks (EU)
  6. Práva: Vaše údaje můžete kdykoli omezit, obnovit a odstranit.