BlazingSQL已發布其源代碼,供使用GPUS來加速數據處理

一個新的開源項目希望將分析提高到一個新水平,這是背後的人 BlazingSQL最近宣布已發布其SQL引擎的源代碼, 在GPU中用於加速數據處理。 BlazingSQL並不是一個完整的DBMS,但它被定位為分析和處理大型數據集的引擎,其任務與Apache Spark相當。

對於那些不熟悉BlazingSQL的人應該知道 這是基於RAPIDS生態系統的GPU加速SQL引擎 它是一組開源軟件庫,用於在GPU上運行端到端分析和數據科學管道。

根據團隊的說法, 創建BlazingSQL是為了解決用戶在大型程序集中工作時面臨的費用,複雜性和緩慢的步伐 數據的。 BlazingSQL適合於對以表格格式(例如,日誌,NetFlow統計信息等)存儲的大型數據集(數十GB)執行單獨的分析查詢。

為了與GPU配合使用,使用了一組RAPIDS庫其中一些是在NVIDIA的參與下開發的,允許您構建完全在GPU端運行的數據處理和分析應用程序(提供了Python接口以使用低級CUDA原語和並行計算)。

BlazingSQL提供了使用SQL而不是API的功能 RAPIDS使用的cuUDF數據處理(基於Apache Arrow)。 BlazingSQL是在cuDF之上運行的附加層,並使用cuIO庫從磁盤讀取數據。

SQL查詢是 轉換為cuUDF函數調用,從而允許將數據加載到GPU 並對它們執行合併,聚合和過濾操作。 支持創建跨越數千個GPU的分佈式配置。

使用EL SQL允許RAPIDS與現有分析系統集成,而無需編寫處理器 無需將數據中間加載到其他DBMS中,同時保持與RAPIDS所有部分的完全兼容性,將現有功能轉換為SQL並確保cuDF級性能。 包括對與XGBoost和cuML庫集成的支持,以解決分析和機器學習任務。

熾烈的SQL 可以從CSV和Apache Parquet格式的平面文件中運行查詢 位於HDSF和AWS S3等網絡和雲系統中,將結果直接傳輸到GPU內存。

由於GPU上的並行操作以及更快的視頻內存的使用,BlazingSQL中的查詢執行速度比Apache Spark中快20倍。

BlazingSQL大大簡化了數據處理-您可以通過單個SQL查詢來完成數百個cuDF函數調用。

BlazingSQL的首席執行官Rodrigo Aramburu在隨後的博客中寫道:“ BlazingSQL不僅通過令人難以置信的快速分佈式SQL GPU引擎解決了這些客戶問題,而且熱衷於簡化操作。” “通過幾行代碼,BlazingSQL可以查詢您的原始數據(無論其位於何處),並可以與您現有的RAPIDS和分析堆棧進行互操作。”

BlazingSQL使用戶可以直接在GPU內存中查詢企業數據湖數據集,作為GPU DataFrame(GDF)。 GDF是一個為GPU應用程序之間的互操作性提供支持的項目。 它還定義了一個通用的GPU內存數據層。

“通過在GPU上利用Apache Arrow並與Dask集成,BlazingSQL將擴展開源功能,並在快節奏的數據科學生態系統中推動下一波互操作性浪潮。”

對於那些有興趣的人應該知道 該代碼是用C ++編寫的,並為用戶提供了python接口 並且開放源代碼受Apache 2.0許可。

鏈接是這個。


成為第一個發表評論

發表您的評論

您的電子郵件地址將不會被發表。 必填字段標有 *

*

*

  1. 負責數據:MiguelÁngelGatón
  2. 數據用途:控制垃圾郵件,註釋管理。
  3. 合法性:您的同意
  4. 數據通訊:除非有法律義務,否則不會將數據傳達給第三方。
  5. 數據存儲:Occentus Networks(EU)託管的數據庫
  6. 權利:您可以隨時限制,恢復和刪除您的信息。