A BlazingSQL kiadta a GPUS használatához szükséges forráskódot az adatfeldolgozás felgyorsítása érdekében

Egy új nyílt forráskódú projekt az elemzéseket egy újabb szintre akarja vinni, és az az, hogy a mögöttük álló emberek A BlazingSQL nemrégiben jelentette be, hogy kiadta az SQL motorjának forráskódját, amelyet a GPU-kban használnak az adatfeldolgozás felgyorsítására. A BlazingSQL nem teljes DBMS, de motorként van elemezve nagy adatkészletek elemzésére és feldolgozására, feladataiban az Apache Sparkhoz hasonlítható.

Azok számára, akik nem ismerik a BlazingSQL-t, tudják ezt ez egy GPU-gyorsított SQL motor, amely a RAPIDS ökoszisztémára épül amely egy nyílt forráskódú szoftverkönyvtárak összessége a végpontok közötti elemzés és az adattudományi folyamatok futtatásához GPU-kon.

A csapat szerint A BlazingSQL-t azért hozták létre, hogy kezelje azokat a költségeket, összetettséget és lassú ütemet, amelyekkel a felhasználók szembesülnek, amikor nagy egységekben dolgoznak adatokból. A BlazingSQL alkalmas táblázatos formátumban tárolt nagy adatkészletek (több tíz gigabájt) egyedi elemzési lekérdezések végrehajtására (pl. Naplók, NetFlow statisztikák stb.).

A GPU-val való együttműködéshez RAPIDS könyvtárakat kell használni abNéhány az NVIDIA bevonásával készült, lehetővé téve olyan adatfeldolgozó és elemző alkalmazások létrehozását, amelyek teljes egészében a GPU oldalán futnak (az alacsony szintű CUDA primitívek és párhuzamos számítások használatához Python interfész biztosított).

A BlazingSQL lehetővé teszi az SQL használata az API helyett cuUDF adatfeldolgozás (Apache Arrow alapján), amelyet a RAPIDS használ. A BlazingSQL egy további réteg, amely a cuDF tetején fut, és a cuIO könyvtár segítségével olvassa le az adatokat a lemezről.

SQL lekérdezések lefordítani cuUDF függvényhívásokká, amelyek lehetővé teszik az adatok betöltését a GPU-ra és végezzen rajtuk egyesítési, összesítési és szűrési műveleteket. Támogatja a GPU-k ezrein átívelő elosztott konfigurációk létrehozását.

A Az SQL lehetővé teszi a RAPIDS integrálását a meglévő analitikai rendszerekkel író processzorok nélkül anélkül, hogy az adatok közbenső betöltését egy további DBMS-be folytatná, miközben teljes mértékben kompatibilis marad a RAPIDS összes részével, a meglévő funkcionalitást SQL-be ​​fordítja, és biztosítja a cuDF szintű teljesítményt. Támogatja az integrációt az XGBoost és a cuML könyvtárakkal az elemzési és gépi tanulási feladatok megoldása érdekében.

Lángoló SQL lapos fájlokból futtathat lekérdezéseket CSV és Apache Parquet formátumban olyan hálózati és felhőrendszereken találhatók, mint a HDSF és az AWS S3, és az eredményt közvetlenül átviszik a GPU memóriájába.

A GPU-n végzett párhuzamosítási műveleteknek és a gyorsabb videomemória használatának köszönhetően a lekérdezések végrehajtása a BlazingSQL-ben akár 20-szor gyorsabb, mint az Apache Sparkban.

A BlazingSQL nagyban leegyszerűsíti az adatokkal való munkát - a több száz cuDF függvényhívás helyett egyetlen SQL lekérdezéssel is megteheti.

"A BlazingSQL nemcsak hihetetlenül gyors, elosztott SQL GPU motorral foglalkozik ezekkel az ügyfelek aggályaival, hanem az egyszerűségre való buzgó összpontosítással is" - írta Rodrigo Aramburu, a BlazingSQL vezérigazgatója egy későbbi blogjában. "Néhány kódsorral a BlazingSQL lekérdezheti a nyers adatait, bárhol is legyen, és együttműködik a meglévő RAPIDS és elemzési veremével."

A BlazingSQL lehetővé teszi a felhasználók számára, hogy a vállalati adatok tó adatkészleteit közvetlenül a GPU memóriájában, GPU DataFrame (GDF) formában lekérdezzék. A GDF egy olyan projekt, amely támogatja a GPU-alkalmazások közötti átjárhatóságot. Ezenkívül meghatároz egy közös GPU memória adatréteget.

"Az Apache Arrow kihasználásával a GPU-kra és a Dask integrálásával a BlazingSQL kiterjeszti a nyílt forráskódú funkcionalitást és az interoperabilitás következő hullámát hajtja a gyors ütemű adattudományi ökoszisztémában."

Azok számára, akik érdeklődnek, tudják ezt a kódot C ++ nyelven írják, a felhasználók számára egy python felülettel és a nyílt forráskód Apache 2.0 licenc alatt van.

A link ez.


Hagyja megjegyzését

E-mail címed nem kerül nyilvánosságra. Kötelező mezők vannak jelölve *

*

*

  1. Az adatokért felelős: Miguel Ángel Gatón
  2. Az adatok célja: A SPAM ellenőrzése, a megjegyzések kezelése.
  3. Legitimáció: Az Ön beleegyezése
  4. Az adatok közlése: Az adatokat csak jogi kötelezettség alapján továbbítjuk harmadik felekkel.
  5. Adattárolás: Az Occentus Networks (EU) által üzemeltetett adatbázis
  6. Jogok: Bármikor korlátozhatja, helyreállíthatja és törölheti adatait.