BlazingSQL je objavio svoj izvorni kod za upotrebu GPUS-a za ubrzanje obrade podataka

Novi projekt otvorenog koda želi analitiku podići na sljedeću razinu i to su ljudi koji stoje iza nje BlazingSQL je nedavno objavio da je objavio izvorni kod za svoj SQL motor, koja se koristi u GPU-ima za ubrzanje obrade podataka. BlazingSQL nije cjeloviti DBMS, ali je pozicioniran kao pokretač za analizu i obradu velikih skupova podataka, koji je u svojim zadacima usporediv s Apache Sparkom.

Oni koji nisu upoznati s BlazingSQL-om to bi trebali znati ovo je GPU ubrzani SQL motor izgrađen na ekosustavu RAPIDS što je skup softverskih biblioteka otvorenog koda za pokretanje cjelokupnih cjevovoda za analitiku i znanost o podacima na GPU-ima.

Prema timu, BlazingSQL stvoren je za rješavanje troškova, složenosti i sporog tempa s kojima se korisnici suočavaju kada rade u velikim sklopovima podataka. BlazingSQL prikladan je za izvođenje pojedinačnih analitičkih upita na velikim skupovima podataka (desecima gigabajta) pohranjenim u tabličnim formatima (npr. Dnevnici, NetFlow statistika, itd.).

Za rad s GPU-om koristi se skup RAPIDS knjižnica abNeki su se razvili uz sudjelovanje NVIDIA-e, omogućavajući vam izradu aplikacija za obradu i analizu podataka koje se u potpunosti izvode na GPU-ovoj strani (Python sučelje je predviđeno za upotrebu CUDA primitiva niske razine i paralelnih izračuna).

BlazingSQL pruža mogućnost upotrebe SQL-a umjesto API-ja cuUDF obrada podataka (na temelju Apache Arrow) koju koristi RAPIDS. BlazingSQL je dodatni sloj koji se izvodi na vrhu cuDF-a i koristi knjižicu cuIO za čitanje podataka s diska.

SQL upiti su prevesti u cuUDF pozive funkcije, koji omogućuju učitavanje podataka na GPU i izvoditi operacije spajanja, agregiranja i filtriranja na njima. Podržava stvaranje distribuiranih konfiguracija koje obuhvaćaju tisuće grafičkih procesora.

El uso SQL omogućuje integraciju RAPIDS-a sa postojećim analitičkim sustavima bez procesora pisanja bez pribjegavanja međusobnom učitavanju podataka u dodatni DBMS, zadržavajući pritom potpunu kompatibilnost sa svim dijelovima RAPIDS-a, prevodeći postojeću funkcionalnost u SQL i osiguravajući izvedbu na razini cuDF-a. Uključuje podršku za integraciju s XGBoost i cuML knjižnicama za rješavanje zadataka analize i strojnog učenja.

BlazingSQL može pokretati upite iz ravnih datoteka u formatima CSV i Apache Parquet nalazi se na mrežnim i oblačnim sustavima kao što su HDSF i AWS S3, izravno prenoseći rezultat u GPU memoriju.

Zahvaljujući operacijama paralelizacije na GPU-u i korištenju brže video memorije, izvršavanje upita u BlazingSQL-u je i do 20 puta brže nego u Apache Spark-u.

BlazingSQL uvelike pojednostavljuje rad s podacima - umjesto stotina poziva funkcije cuDF, to možete učiniti jednim SQL upitom.

"BlazingSQL rješava ove probleme kupaca ne samo nevjerojatno brzim, distribuiranim SQL GPU motorom, već i gorljivim fokusom na jednostavnost", napisao je Rodrigo Aramburu, izvršni direktor BlazingSQL-a, u sljedećem blogu. "Sa samo nekoliko redaka koda, BlazingSQL može ispitivati ​​vaše sirove podatke, gdje god se oni nalazili, i surađivati ​​s vašim postojećim RAPIDS-om i analitičkim stogom."

BlazingSQL omogućava korisnicima da pitaju skupove podataka s jezicima podataka poduzeća izravno u GPU memoriji kao GPU DataFrame (GDF). GDF je projekt koji nudi podršku za interoperabilnost između GPU aplikacija. Također definira uobičajeni sloj podataka GPU memorije.

"Korištenjem Apache Arrow na grafičkim procesorima i integracijom s Daskom, BlazingSQL će proširiti funkcionalnost otvorenog koda i pokrenuti sljedeći val interoperabilnosti u brzom ekosustavu znanosti o podacima."

Oni koji su zainteresirani to bi trebali znati kôd je napisan na C ++ s python sučeljem za korisnike a otvoreni izvor je pod licencom Apache 2.0.

Poveznica je ovo.


Ostavite svoj komentar

Vaša email adresa neće biti objavljen. Obavezna polja su označena s *

*

*

  1. Za podatke odgovoran: Miguel Ángel Gatón
  2. Svrha podataka: Kontrola neželjene pošte, upravljanje komentarima.
  3. Legitimacija: Vaš pristanak
  4. Komunikacija podataka: Podaci se neće dostavljati trećim stranama, osim po zakonskoj obvezi.
  5. Pohrana podataka: Baza podataka koju hostira Occentus Networks (EU)
  6. Prava: U bilo kojem trenutku možete ograničiti, oporaviti i izbrisati svoje podatke.