BlazingSQL đã phát hành mã nguồn sử dụng GPUS để tăng tốc xử lý dữ liệu

Một dự án nguồn mở mới muốn đưa phân tích lên cấp độ tiếp theo và những người đứng sau BlazingSQL gần đây đã thông báo rằng họ đã phát hành mã nguồn cho công cụ SQL của mình, được sử dụng trong GPU để tăng tốc độ xử lý dữ liệu. BlazingSQL không phải là một DBMS hoàn chỉnh, nhưng nó được định vị như một công cụ để phân tích và xử lý các tập dữ liệu lớn, có thể so sánh trong các nhiệm vụ của nó với Apache Spark.

Đối với những người không quen với BlazingSQL nên biết rằng đây là một công cụ SQL tăng tốc GPU được xây dựng trên hệ sinh thái RAPIDS là một tập hợp các thư viện phần mềm mã nguồn mở để chạy các đường ống phân tích đầu cuối và khoa học dữ liệu trên GPU.

Theo nhóm nghiên cứu, BlazingSQL được tạo ra để giải quyết chi phí, độ phức tạp và tốc độ chậm mà người dùng phải đối mặt khi làm việc trong các tập hợp lớn Dữ liệu. BlazingSQL thích hợp để thực hiện các truy vấn phân tích riêng lẻ trên các tập dữ liệu lớn (hàng chục gigabyte) được lưu trữ dưới dạng bảng (ví dụ: nhật ký, thống kê NetFlow, v.v.).

Để làm việc với GPU, một bộ thư viện RAPIDS được sử dụng abMột số được phát triển với sự tham gia của NVIDIA, cho phép bạn tạo các ứng dụng xử lý và phân tích dữ liệu chạy hoàn toàn trên phía GPU (giao diện Python được cung cấp để sử dụng các nguyên thủy CUDA cấp thấp và tính toán song song).

BlazingSQL cung cấp khả năng sử dụng SQL thay vì API xử lý dữ liệu cuUDF (dựa trên Apache Arrow) được sử dụng bởi RAPIDS. BlazingSQL là một lớp bổ sung chạy trên cuDF và sử dụng thư viện cuIO để đọc dữ liệu từ đĩa.

Truy vấn SQL là dịch thành các lệnh gọi hàm cuUDF, cho phép tải dữ liệu lên GPU và thực hiện các hoạt động hợp nhất, tổng hợp và lọc trên chúng. Hỗ trợ việc tạo các cấu hình phân tán trên hàng nghìn GPU.

Sử dụng SQL cho phép RAPIDS được tích hợp với các hệ thống phân tích hiện có mà không cần viết bộ xử lý mà không cần dùng đến tải dữ liệu trung gian trong một DBMS bổ sung, đồng thời duy trì khả năng tương thích hoàn toàn với tất cả các phần của RAPIDS, dịch chức năng hiện có sang SQL và đảm bảo hiệu suất cấp cuDF. Bao gồm hỗ trợ tích hợp với các thư viện XGBoost và cuML để giải quyết các tác vụ phân tích và học máy.

SQL rực rỡ có thể chạy các truy vấn từ các tệp phẳng ở định dạng CSV và Apache Parquet nằm trên các hệ thống mạng và đám mây như HDSF và AWS S3, chuyển trực tiếp kết quả đến bộ nhớ GPU.

Nhờ các hoạt động song song trên GPU và sử dụng bộ nhớ video nhanh hơn, việc thực thi truy vấn trong BlazingSQL nhanh hơn tới 20 lần so với trong Apache Spark.

BlazingSQL đơn giản hóa đáng kể làm việc với dữ liệu - thay vì hàng trăm lệnh gọi hàm cuDF, bạn có thể thực hiện điều đó với một truy vấn SQL duy nhất.

"BlazingSQL giải quyết những mối quan tâm này của khách hàng không chỉ với một công cụ SQL GPU phân tán, cực kỳ nhanh chóng mà còn là sự tập trung nhiệt tình vào sự đơn giản", Rodrigo Aramburu, Giám đốc điều hành của BlazingSQL, đã viết trong một blog tiếp theo. "Chỉ với một vài dòng mã, BlazingSQL có thể truy vấn dữ liệu thô của bạn, bất cứ nơi nào nó cư trú và tương tác với RAPIDS và ngăn xếp phân tích hiện có của bạn."

BlazingSQL cho phép người dùng truy vấn tập dữ liệu hồ dữ liệu doanh nghiệp trực tiếp trong bộ nhớ GPU dưới dạng GPU DataFrame (GDF). GDF là một dự án cung cấp hỗ trợ cho khả năng tương tác giữa các ứng dụng GPU. Nó cũng xác định một lớp dữ liệu bộ nhớ GPU chung.

"Bằng cách tận dụng Apache Arrow trên GPU và tích hợp với Dask, BlazingSQL sẽ mở rộng chức năng nguồn mở và thúc đẩy làn sóng khả năng tương tác tiếp theo trong hệ sinh thái khoa học dữ liệu nhịp độ nhanh."

Đối với những ai quan tâm nên biết rằng mã được viết bằng C ++ với giao diện python cho người dùng và mã nguồn mở theo giấy phép Apache 2.0.

Liên kết là cái này.

Để lại bình luận của bạn Hủy trả lời

địa chỉ email của bạn sẽ không được công bố. Các trường bắt buộc được đánh dấu bằng *

chú thích *

tên*

thư điện tử*

Tôi chấp nhận điều khoản riêng tư*

Chịu trách nhiệm về dữ liệu: Miguel Ángel Gatón
Mục đích của dữ liệu: Kiểm soát SPAM, quản lý bình luận.
Hợp pháp: Sự đồng ý của bạn
Truyền thông dữ liệu: Dữ liệu sẽ không được thông báo cho các bên thứ ba trừ khi có nghĩa vụ pháp lý.
Lưu trữ dữ liệu: Cơ sở dữ liệu do Occentus Networks (EU) lưu trữ
Quyền: Bất cứ lúc nào bạn có thể giới hạn, khôi phục và xóa thông tin của mình.

Tôi muốn nhận bản tin

DesdeLinux

BlazingSQL đã phát hành mã nguồn của mình để sử dụng GPUS để tăng tốc độ xử lý dữ liệu

Để lại bình luận của bạn Hủy trả lời