BlazingSQL ir izlaidusi savu pirmkodu GPUS izmantošanai, lai paātrinātu datu apstrādi

Jauns atvērtā pirmkoda projekts vēlas paaugstināt analītiku nākamajā līmenī, un tas ir tas, ka cilvēki aiz tā BlazingSQL nesen paziņoja, ka ir izlaidusi sava SQL dzinēja pirmkodu, kas tiek izmantots GPU, lai paātrinātu datu apstrādi. BlazingSQL nav pilnīga DBVS, taču tā tiek pozicionēta kā dzinējs lielu datu kopu analīzei un apstrādei, kas pēc saviem uzdevumiem ir salīdzināma ar Apache Spark.

Tiem, kuriem BlazingSQL nav svešs, tas būtu jāzina tas ir GPU paātrināts SQL dzinējs, kas veidots uz RAPIDS ekosistēmas kas ir atvērta pirmkoda programmatūras bibliotēku kopums, lai GPU darbinātu pilnīgas analīzes un datu zinātnes cauruļvadus.

Pēc komandas domām, BlazingSQL tika izveidots, lai novērstu izdevumus, sarežģītību un lēnu tempu, ar kuru lietotāji saskaras, strādājot lielos mezglos datu. BlazingSQL ir piemērots atsevišķu analītisko vaicājumu veikšanai lielām datu kopām (desmitiem gigabaitu), kas saglabāti tabulas formātos (piemēram, žurnāli, NetFlow statistika utt.).

Darbam ar GPU tiek izmantots RAPIDS bibliotēku komplekts abDaži no tiem tika izstrādāti, iesaistot NVIDIA, ļaujot jums izveidot datu apstrādes un analīzes lietojumprogrammas, kas darbojas pilnībā GPU pusē (tiek nodrošināta Python saskarne, lai izmantotu zema līmeņa CUDA primitīvus un paralēlus aprēķinus).

BlazingSQL nodrošina iespēju API vietā izmantot SQL cuUDF datu apstrāde (pamatojoties uz Apache Arrow), ko izmanto RAPIDS. BlazingSQL ir papildu slānis, kas darbojas virs cuDF un izmanto cuIO bibliotēku, lai nolasītu datus no diska.

SQL vaicājumi ir tulkot cuUDF funkciju izsaukumos, kas ļauj datus ielādēt GPU un veikt to apvienošanas, apkopošanas un filtrēšanas darbības. Atbalsta izplatītu konfigurāciju izveidi, kas aptver tūkstošiem GPU.

Izmantošana SQL ļauj RAPIDS integrēt esošajās analītiskajās sistēmās bez rakstīšanas procesoriem neizmantojot starpposma datu ielādi papildu DBVS, vienlaikus saglabājot pilnīgu savietojamību ar visām RAPIDS daļām, pārveidojot esošo funkcionalitāti SQL un nodrošinot cuDF līmeņa veiktspēju. Ietver atbalstu integrācijai ar XGBoost un cuML bibliotēkām, lai atrisinātu analīzes un mašīnmācīšanās uzdevumus.

Degošs SQL var izpildīt vaicājumus no plakaniem failiem CSV un Apache parketa formātos atrodas tīkla un mākoņu sistēmās, piemēram, HDSF un AWS S3, tieši pārsūtot rezultātu uz GPU atmiņu.

Pateicoties GPU paralelizācijas operācijām un ātrākas video atmiņas izmantošanai, vaicājumu izpilde BlazingSQL ir līdz pat 20 reizēm ātrāka nekā Apache Spark.

BlazingSQL ievērojami vienkāršo darbu ar datiem - simtiem cuDF funkciju izsaukumu vietā to var izdarīt ar vienu SQL vaicājumu.

"BlazingSQL risina šīs klientu problēmas ne tikai ar neticami ātru, izplatītu SQL GPU dzinēju, bet arī dedzīgu koncentrēšanos uz vienkāršību," nākamajā blogā rakstīja BlazingSQL izpilddirektors Rodrigo Aramburu. "Ar dažām koda rindiņām BlazingSQL var vaicāt jūsu neapstrādātiem datiem neatkarīgi no tā, kur tie atrodas, un sadarboties ar jūsu esošo RAPIDS un analītikas kaudzi."

BlazingSQL ļauj lietotājiem vaicāt uzņēmuma datu ezera datu kopām tieši GPU atmiņā kā GPU DataFrame (GDF). GDF ir projekts, kas piedāvā atbalstu GPU lietojumprogrammu savietojamībai. Tas arī nosaka kopēju GPU atmiņas datu slāni.

"Piesaistot Apache Arrow uz GPU un integrējot ar Dask, BlazingSQL paplašinās atvērtā pirmkoda funkcionalitāti un virzīs nākamo savietojamības vilni straujajā datu zinātnes ekosistēmā."

Tiem, kas interesējas, tas būtu jāzina kods ir rakstīts C ++ ar lietotāju saskarni un atvērtais avots ir saskaņā ar Apache 2.0 licenci.

Saite ir šī.


Atstājiet savu komentāru

Jūsu e-pasta adrese netiks publicēta. Obligātie lauki ir atzīmēti ar *

*

*

  1. Atbildīgais par datiem: Migels Ángels Gatóns
  2. Datu mērķis: SPAM kontrole, komentāru pārvaldība.
  3. Legitimācija: jūsu piekrišana
  4. Datu paziņošana: Dati netiks paziņoti trešām personām, izņemot juridiskus pienākumus.
  5. Datu glabāšana: datu bāze, ko mitina Occentus Networks (ES)
  6. Tiesības: jebkurā laikā varat ierobežot, atjaunot un dzēst savu informāciju.