BlazingSQL je objavio svoj izvorni kod za upotrebu GPUS-a za ubrzanje obrade podataka

Novi projekat otvorenog koda želi da podigne analitiku na viši nivo i ljude iza njih BlazingSQL je nedavno objavio da je objavio izvorni kod svog SQL motora, koji se koristi u GPU-ima za ubrzanje obrade podataka. BlazingSQL nije kompletan DBMS, ali je pozicioniran kao motor za analizu i obradu velikih skupova podataka, uporediv po svojim zadacima sa Apache Sparkom.

Za one koji ne znaju za BlazingSQL, trebali biste to znati ovo je GPU ubrzani SQL motor izgrađen na RAPIDS ekosistemu koji je skup softverskih biblioteka otvorenog koda za pokretanje end-to-end cevovoda za nauku o podacima i analitiku na GPU-ovima.

Prema timu, BlazingSQL je kreiran da se pozabavi troškovima, složenošću i sporim tempom sa kojima se korisnici suočavaju kada rade na velikim skupovima. podataka. BlazingSQL je pogodan za izvođenje pojedinačnih analitičkih upita na velikim skupovima podataka (desetine gigabajta) pohranjenim u tabelarnim formatima (npr. evidencije, NetFlow statistika, itd.).

Za rad sa GPU-om koristi se skup RAPIDS ab bibliotekaerts razvijen uz učešće NVIDIA-e, koji vam omogućava da kreirate aplikacije za analizu i obradu podataka koje se u potpunosti pokreću na strani GPU-a (obezbeđen je Python interfejs za korišćenje CUDA primitiva niskog nivoa i paralelnih proračuna).

BlazingSQL pruža mogućnost korištenja SQL-a umjesto API-ja cuUDF alat za obradu podataka (baziran na Apache Arrow) koji koristi RAPIDS. BlazingSQL je dodatni sloj koji radi na vrhu cuDF-a i koristi cuIO biblioteku za čitanje podataka s diska.

SQL upiti su prevesti u cuUDF pozive funkcija, koji omogućavaju učitavanje podataka u GPU i obavljaju operacije spajanja, agregacije i filtriranja na njima. Podržava kreiranje distribuiranih konfiguracija koje obuhvataju hiljade GPU-a.

Korišćenje SQL omogućava da se RAPIDS integriše sa postojećim analitičkim sistemima bez pisanja procesora bez pribjegavanja srednjem učitavanju podataka u dodatni DBMS, uz održavanje pune kompatibilnosti sa svim dijelovima RAPIDS-a, prevođenje postojeće funkcionalnosti u SQL i osiguranje performansi na cuDF razini. Uključuje podršku za integraciju sa XGBoost i cuML bibliotekama za rješavanje zadataka analitike i strojnog učenja.

BlazingSQL može pokrenuti upite iz ravnih datoteka u CSV i Apache Parquet formatima koji se nalaze u mrežnim i cloud sistemima kao što su HDSF i AWS S3, direktno prenoseći rezultat u GPU memoriju.

Zahvaljujući operacijama paralelizacije na GPU-u i korišćenju brže video memorije, izvršenje upita u BlazingSQL je do 20 puta brže nego u Apache Spark-u.

BlazingSQL uvelike pojednostavljuje rad s podacima: umjesto stotina poziva cuDF funkcija, to možete učiniti jednim SQL upitom.

„BlazingSQL rješava ove probleme korisnika ne samo sa nevjerovatno brzim, distribuiranim GPU SQL motorom, već i sa revnim fokusom na jednostavnost“, napisao je Rodrigo Aramburu, izvršni direktor BlazingSQL-a, u sljedećem blogu. “Sa nekoliko linija koda, BlazingSQL može upitati vaše neobrađene podatke, gdje god da se nalaze, i interoperirati s vašim postojećim RAPIDS-ima i analitičkim stogom.”

BlazingSQL omogućava korisnicima da postavljaju upite skupovima podataka iz poslovnih jezera podataka direktno u GPU memoriju kao GPU DataFrame (GDF). GDF je projekat koji pruža podršku za interoperabilnost između GPU aplikacija. Takođe definiše zajednički GPU sloj podataka u memoriji.

“Upotrebom Apache Arrow-a na GPU-ovima i integracijom sa Daskom, BlazingSQL će proširiti funkcionalnost otvorenog koda i pokrenuti sljedeći val interoperabilnosti u ubrzanom ekosistemu nauke o podacima.”

Za one koji su zainteresovani, to treba da znaju Kod je napisan u C++ sa Python interfejsom za korisnike a kod je otvoren pod licencom Apache 2.0.

Link je ovaj.


Ostavite komentar

Vaša e-mail adresa neće biti objavljena. Obavezna polja su označena sa *

*

*

  1. Za podatke odgovoran: Miguel Ángel Gatón
  2. Svrha podataka: Kontrola neželjene pošte, upravljanje komentarima.
  3. Legitimacija: Vaš pristanak
  4. Komunikacija podataka: Podaci se neće dostavljati trećim stranama, osim po zakonskoj obavezi.
  5. Pohrana podataka: Baza podataka koju hostuje Occentus Networks (EU)
  6. Prava: U bilo kojem trenutku možete ograničiti, oporaviti i izbrisati svoje podatke.