BlazingSQL ha liberado su código fuente para el uso de GPUS para acelerar el procesamiento de datos

Projek sumber terbuka baru ingin membawa analisis ke tahap seterusnya dan orang yang berada di belakang BlazingSQL baru-baru ini mengumumkan bahawa ia telah mengeluarkan kod sumber untuk enjin SQL-nya, yang digunakan dalam GPU untuk mempercepat pemprosesan data. BlazingSQL bukanlah DBMS yang lengkap, tetapi diposisikan sebagai mesin untuk menganalisis dan memproses kumpulan data yang besar, setanding dalam tugasnya dengan Apache Spark.

Bagi mereka yang tidak biasa dengan BlazingSQL harus mengetahui perkara itu ini adalah enjin SQL dipercepat GPU yang dibina di atas ekosistem RAPIDS yang merupakan sekumpulan perpustakaan perisian sumber terbuka untuk menjalankan saluran analisis dan data sains akhir-ke-akhir pada GPU.

Menurut pasukan, BlazingSQL diciptakan untuk mengatasi perbelanjaan, kerumitan dan kecepatan lambat yang dihadapi pengguna ketika bekerja di perhimpunan besar data. BlazingSQL sesuai untuk melakukan pertanyaan analitik individu pada set data besar (puluhan gigabait) yang disimpan dalam format jadual (misalnya log, statistik NetFlow, dll.).

Untuk bekerja dengan GPU, satu set perpustakaan RAPIDS digunakan abBeberapa dikembangkan dengan penglibatan NVIDIA, yang membolehkan anda membuat aplikasi pemprosesan data dan analisis yang berjalan sepenuhnya di sisi GPU (antara muka Python disediakan untuk menggunakan primitif CUDA tahap rendah dan pengiraan selari).

BlazingSQL menyediakan kemampuan untuk menggunakan SQL dan bukannya API pemprosesan data cuUDF (berdasarkan Apache Arrow) yang digunakan oleh RAPIDS. BlazingSQL adalah lapisan tambahan yang berjalan di atas cuDF dan menggunakan pustaka cuIO untuk membaca data dari cakera.

Pertanyaan SQL adalah diterjemahkan ke dalam panggilan fungsi cuUDF, yang membolehkan data dimuat ke GPU dan melakukan operasi penggabungan, agregat, dan penapis pada mereka. Menyokong penciptaan konfigurasi yang diedarkan merangkumi ribuan GPU.

Penggunaan SQL membolehkan RAPIDS diintegrasikan dengan sistem analisis yang ada tanpa menulis pemproses tanpa memerlukan pemuatan data antara menjadi DBMS tambahan, sambil mengekalkan keserasian penuh dengan semua bahagian RAPIDS, menerjemahkan fungsi yang ada ke dalam SQL, dan memastikan prestasi pada tahap cuDF. Termasuk sokongan untuk integrasi dengan perpustakaan XGBoost dan cuML untuk menyelesaikan tugas analisis dan pembelajaran mesin.

BlazingSQL dapat menjalankan pertanyaan dari fail rata dalam format CSV dan Apache Parquet terletak di sistem rangkaian dan awan seperti HDSF dan AWS S3, secara langsung memindahkan hasilnya ke memori GPU.

Berkat operasi paralelisasi pada GPU dan penggunaan memori video yang lebih pantas, pelaksanaan pertanyaan dalam BlazingSQL adalah 20 kali lebih pantas daripada di Apache Spark.

BlazingSQL sangat memudahkan kerja dengan data - bukannya beratus panggilan fungsi cuDF, anda boleh melakukannya dengan satu pertanyaan SQL.

"BlazingSQL menangani masalah pelanggan ini bukan hanya dengan mesin GPU SQL yang sangat cepat dan diedarkan, tetapi juga fokus pada kesederhanaan," tulis Rodrigo Aramburu, Ketua Pegawai Eksekutif BlazingSQL, dalam blog berikutnya. "Dengan hanya beberapa baris kod, BlazingSQL dapat menanyakan data mentah Anda, di mana pun ia berada, dan bekerjasama dengan timbunan RAPIDS dan analisis yang ada."

BlazingSQL membolehkan pengguna membuat pertanyaan set data perusahaan secara langsung dalam memori GPU sebagai GPU DataFrame (GDF). GDF adalah projek yang menawarkan sokongan untuk interoperabiliti antara aplikasi GPU. Ia juga menentukan lapisan data memori GPU biasa.

"Dengan memanfaatkan Apache Arrow pada GPU dan berintegrasi dengan Dask, BlazingSQL akan memperluas fungsi sumber terbuka dan mendorong gelombang interoperabilitas berikutnya dalam ekosistem sains data yang pantas."

Bagi mereka yang berminat harus mengetahui perkara itu kod ditulis dalam C ++ dengan antara muka python untuk pengguna dan sumber terbuka berada di bawah lesen Apache 2.0.

Pautan ini.

DesdeLinux

BlazingSQL telah mengeluarkan kod sumbernya untuk penggunaan GPUS untuk mempercepat pemprosesan data

Tinggalkan komen anda Batal balasan