BlazingSQL ha liberado su código fuente para el uso de GPUS para acelerar el procesamiento de datos

Ang isang bagong proyekto ng bukas na mapagkukunan ay nais na kumuha ng analytics sa susunod na antas at ang mga tao sa likuran Kamakailan ay inihayag ng BlazingSQL na inilabas nito ang source code para sa SQL engine nito, na ginagamit sa mga GPU upang mapabilis ang pagproseso ng data. Ang BlazingSQL ay hindi isang kumpletong DBMS, ngunit nakaposisyon ito bilang isang engine upang pag-aralan at iproseso ang malalaking mga hanay ng data, maihahambing sa mga gawain nito sa Apache Spark.

Para sa mga hindi pamilyar sa BlazingSQL dapat malaman iyon ito ay isang GPU na pinabilis na SQL engine na binuo sa ecosystem ng RAPIDS na isang hanay ng mga bukas na mapagkukunan ng software ng software para sa pagpapatakbo ng end-to-end analytics at mga data pipeline ng agham ng data sa mga GPU.

Ayon sa koponan, Ang BlazingSQL ay nilikha upang matugunan ang gastos, pagiging kumplikado, at mabagal na pagharap ng mga gumagamit kapag nagtatrabaho sa malalaking pagpupulong ng data Ang BlazingSQL ay angkop para sa pagsasagawa ng mga indibidwal na mga query na pansusuri sa mga malalaking hanay ng data (sampu-sampung mga gigabyte) na nakaimbak sa mga format na tabular (hal. Mga log, istatistika ng NetFlow, atbp.).

Upang gumana sa GPU, isang hanay ng mga aklatan ng RAPID ay ginagamit abAng ilan ay binuo kasama ang paglahok ng NVIDIA, na nagbibigay-daan sa iyo upang lumikha ng mga application ng pagproseso ng data at pagtatasa na ganap na tumatakbo sa gilid ng GPU (isang interface ng Python ang ibinigay upang magamit ang mababang-antas na CUDA primitives at parallel na mga kalkulasyon).

Nagbibigay ang BlazingSQL ng kakayahang gumamit ng SQL sa halip na ang API pagpoproseso ng data ng cuUDF (batay sa Apache Arrow) na ginamit ng RAPIDS. Ang BlazingSQL ay isang karagdagang layer na tumatakbo sa tuktok ng cuDF at ginagamit ang cuIO library upang mabasa ang data mula sa disk.

Ang mga query sa SQL ay isalin sa mga tawag na pagpapaandar ng cuUDF, na nagpapahintulot sa data na mai-load papunta sa GPU at magsagawa ng pagsasama, pagsasama-sama, at salain ang mga pagpapatakbo sa kanila. Sinusuportahan ang paglikha ng mga ibinahaging mga pagsasaayos na sumasaklaw sa libu-libong mga GPU.

Gamitin Pinapayagan ng SQL na maisama ang mga RAPID sa mga umiiral na mga analytical system nang walang mga proseso ng pagsulat nang hindi gumagamit ng pansamantalang paglo-load ng data sa isang karagdagang DBMS, habang pinapanatili ang buong pagiging tugma sa lahat ng bahagi ng RAPIDS, isinasalin ang umiiral na pag-andar sa SQL, at tinitiyak ang pagganap sa antas ng cuDF. May kasamang suporta para sa pagsasama sa mga aklatan ng XGBoost at cuML upang malutas ang mga gawain sa pag-aaral at pag-aaral ng makina.

BlazingSQL maaaring magpatakbo ng mga query mula sa mga flat file sa mga format ng CSV at Apache Parquet na matatagpuan sa network at mga cloud system tulad ng HDSF at AWS S3, direktang paglilipat ng resulta sa memorya ng GPU.

Salamat sa pagpapatakbo ng parallelization sa GPU at ang paggamit ng mas mabilis na memorya ng video, ang pagpapatupad ng query sa BlazingSQL ay hanggang sa 20 beses na mas mabilis kaysa sa Apache Spark.

Lubhang pinadadali ng BlazingSQL ang pagtatrabaho sa data - sa halip na daan-daang mga tawag sa pagpapaandar ng cuDF, magagawa mo ito sa isang solong query sa SQL.

"Tinutugunan ng BlazingSQL ang mga alalahanin sa customer hindi lamang sa isang napakalaking mabilis, naipamahagi na engine ng SQL GPU, kundi pati na rin ng masigasig na pagtuon sa pagiging simple," sumulat si Rodrigo Aramburu, CEO ng BlazingSQL sa isang kasunod na blog. "Sa ilang mga linya lamang ng code, maaaring i-query ng BlazingSQL ang iyong hilaw na data, saan man ito manirahan, at makipag-ugnay sa iyong umiiral na RAPIDID at analytics stack."

Nagbibigay-daan ang BlazingSQL sa mga gumagamit na magtanong ng data ng data ng lawa ng enterprise nang direkta sa mga memorya ng GPU bilang isang GPU DataFrame (GDF). Ang GDF ay isang proyekto na nag-aalok ng suporta para sa interoperability sa pagitan ng mga aplikasyon ng GPU. Tinutukoy din nito ang isang karaniwang layer ng data ng memorya ng GPU.

"Sa pamamagitan ng paggamit ng Apache Arrow sa mga GPU at pagsasama sa Dask, ang BlazingSQL ay magpapalawak ng bukas na pag-andar ng mapagkukunan at himukin ang susunod na alon ng interoperability sa mabilis na bilis ng data ecosystem."

Para sa mga interesado dapat malaman iyon ang code ay nakasulat sa C ++ na may isang interface ng sawa para sa mga gumagamit at ang bukas na mapagkukunan ay nasa ilalim ng lisensya ng Apache 2.0.

Ang link ay ito.

DesdeLinux

Inilabas ng BlazingSQL ang source code para sa paggamit ng GPUS upang mapabilis ang pagproseso ng data

Iwanan ang iyong puna Ikansela ang tugon