BlazingSQL telah merilis kode sumbernya untuk penggunaan GPUS guna mempercepat pemrosesan data

Proyek open source baru ingin membawa analitik ke level berikutnya dan itu adalah orang-orang di belakangnya BlazingSQL baru-baru ini mengumumkan bahwa ia telah merilis kode sumber untuk mesin SQL-nya, yang digunakan di GPU untuk mempercepat pemrosesan data. BlazingSQL bukanlah DBMS lengkap, tetapi diposisikan sebagai mesin untuk menganalisis dan memproses kumpulan data besar, sebanding dalam tugasnya dengan Apache Spark.

Bagi mereka yang tidak terbiasa dengan BlazingSQL harus tahu itu ini adalah mesin SQL akselerasi GPU yang dibangun di atas ekosistem RAPIDS yang merupakan sekumpulan pustaka perangkat lunak sumber terbuka untuk menjalankan analitik ujung-ke-ujung dan pipeline ilmu data pada GPU.

Menurut tim, BlazingSQL dibuat untuk mengatasi biaya, kompleksitas, dan kecepatan lambat yang dialami pengguna saat bekerja dalam rakitan besar data. BlazingSQL cocok untuk melakukan kueri analitik individual pada kumpulan data besar (puluhan gigabyte) yang disimpan dalam format tabel (mis. Log, statistik NetFlow, dll.).

Untuk bekerja dengan GPU, satu set pustaka RAPIDS digunakan abBeberapa dikembangkan dengan keterlibatan NVIDIA, memungkinkan Anda untuk membangun pemrosesan data dan aplikasi analisis yang berjalan sepenuhnya di sisi GPU (antarmuka Python disediakan untuk menggunakan primitif CUDA tingkat rendah dan perhitungan paralel).

BlazingSQL memberikan kemampuan untuk menggunakan SQL sebagai ganti API pemrosesan data cuUDF (berdasarkan Apache Arrow) yang digunakan oleh RAPIDS. BlazingSQL adalah lapisan tambahan yang berjalan di atas cuDF dan menggunakan pustaka cuIO untuk membaca data dari disk.

Kueri SQL adalah diterjemahkan ke dalam panggilan fungsi cuUDF, yang memungkinkan data dimuat ke GPU dan melakukan operasi penggabungan, agregat, dan filter pada mereka. Mendukung pembuatan konfigurasi terdistribusi yang mencakup ribuan GPU.

Penggunaan SQL memungkinkan RAPIDS diintegrasikan dengan sistem analitik yang ada tanpa menulis prosesor tanpa menggunakan pemuatan data menengah ke dalam DBMS tambahan, sambil mempertahankan kompatibilitas penuh dengan semua bagian RAPIDS, menerjemahkan fungsionalitas yang ada ke dalam SQL dan memastikan kinerja tingkat cuDF. Termasuk dukungan untuk integrasi dengan XGBoost dan perpustakaan cuML untuk menyelesaikan tugas analisis dan pembelajaran mesin.

SQL yang menyala-nyala dapat menjalankan kueri dari file datar dalam format CSV dan Apache Parquet terletak di jaringan dan sistem cloud seperti HDSF dan AWS S3, langsung mentransfer hasilnya ke memori GPU.

Berkat operasi paralelisasi pada GPU dan penggunaan memori video yang lebih cepat, eksekusi kueri di BlazingSQL hingga 20 kali lebih cepat daripada di Apache Spark.

BlazingSQL sangat menyederhanakan bekerja dengan data - alih-alih ratusan panggilan fungsi cuDF, Anda dapat melakukannya dengan satu kueri SQL.

"BlazingSQL mengatasi masalah pelanggan ini tidak hanya dengan mesin GPU SQL yang sangat cepat dan terdistribusi, tetapi juga fokus pada kesederhanaan," tulis Rodrigo Aramburu, CEO BlazingSQL, dalam blog berikutnya. "Hanya dengan beberapa baris kode, BlazingSQL dapat menanyakan data mentah Anda, di mana pun ia berada, dan beroperasi dengan tumpukan RAPIDS dan analitik Anda yang ada."

BlazingSQL memungkinkan pengguna untuk menanyakan kumpulan data danau data perusahaan secara langsung di memori GPU sebagai GPU DataFrame (GDF). GDF adalah proyek yang menawarkan dukungan untuk interoperabilitas antar aplikasi GPU. Ini juga menentukan lapisan data memori GPU umum.

"Dengan memanfaatkan Apache Arrow pada GPU dan mengintegrasikannya dengan Dask, BlazingSQL akan memperluas fungsionalitas open source dan mendorong gelombang interoperabilitas berikutnya dalam ekosistem ilmu data yang bergerak cepat."

Bagi yang tertarik harus tahu itu kode tersebut ditulis dalam C ++ dengan antarmuka python untuk pengguna dan open source di bawah lisensi Apache 2.0.

Tautannya adalah ini.


tinggalkan Komentar Anda

Alamat email Anda tidak akan dipublikasikan. Bidang yang harus diisi ditandai dengan *

*

*

  1. Penanggung jawab data: Miguel Ángel Gatón
  2. Tujuan data: Mengontrol SPAM, manajemen komentar.
  3. Legitimasi: Persetujuan Anda
  4. Komunikasi data: Data tidak akan dikomunikasikan kepada pihak ketiga kecuali dengan kewajiban hukum.
  5. Penyimpanan data: Basis data dihosting oleh Occentus Networks (UE)
  6. Hak: Anda dapat membatasi, memulihkan, dan menghapus informasi Anda kapan saja.