BlazingSQL已发布其源代码,供使用GPUS来加速数据处理

一个新的开源项目希望将分析提高到一个新水平,这是背后的人 BlazingSQL最近宣布已发布其SQL引擎的源代码, 在GPU中用于加速数据处理。 BlazingSQL并不是一个完整的DBMS,但它被定位为分析和处理大型数据集的引擎,其任务与Apache Spark相当。

对于那些不熟悉BlazingSQL的人应该知道 这是基于RAPIDS生态系统的GPU加速SQL引擎 它是一组开源软件库,用于在GPU上运行端到端分析和数据科学管道。

根据团队的说法, 创建BlazingSQL是为了解决用户在大型程序集中工作时遇到的费用,复杂性和速度缓慢 数据的。 BlazingSQL适合于对以表格格式(例如,日志,NetFlow统计信息等)存储的大型数据集(数十GB)执行单独的分析查询。

为了与GPU配合使用,使用了一组RAPIDS库其中一些是在NVIDIA的参与下开发的,可让您构建完全在GPU端运行的数据处理和分析应用程序(提供了Python接口以使用低级CUDA原语和并行计算)。

BlazingSQL提供使用SQL代替API的功能 RAPIDS使用的cuUDF数据处理(基于Apache Arrow)。 BlazingSQL是在cuDF之上运行的附加层,并使用cuIO库从磁盘读取数据。

SQL查询是 转换为cuUDF函数调用,从而允许将数据加载到GPU 并对它们执行合并,聚合和过滤操作。 支持创建跨越数千个GPU的分布式配置。

萨尔瓦多使用 SQL允许RAPIDS与现有分析系统集成,而无需编写处理器 无需将数据中间加载到其他DBMS中,而保持与RAPIDS所有部分的完全兼容性,将现有功能转换为SQL,并确保cuDF级别的性能。 包括对与XGBoost和cuML库集成的支持,以解决分析和机器学习任务。

炽烈的SQL 可以从CSV和Apache Parquet格式的平面文件中运行查询 位于HDSF和AWS S3等网络和云系统上,将结果直接传输到GPU内存。

由于GPU上的并行操作以及更快的视频内存的使用,BlazingSQL中的查询执行速度比Apache Spark中快20倍。

BlazingSQL大大简化了数据处理-您可以通过单个SQL查询来完成数据处理,而无需执行数百次cuDF函数调用。

BlazingSQL的首席执行官Rodrigo Aramburu在随后的博客中写道:“ BlazingSQL不仅通过令人难以置信的快速分布式SQL GPU引擎解决了这些客户问题,而且还热衷于简化操作。” “仅需几行代码,BlazingSQL可以查询原始数据,无论它们位于何处,并可以与您现有的RAPIDS和分析堆栈进​​行互操作。”

BlazingSQL使用户可以直接在GPU内存中查询企业数据湖数据集,作为GPU DataFrame(GDF)。 GDF是一个为GPU应用程序之间的互操作性提供支持的项目。 它还定义了通用的GPU内存数据层。

“通过在GPU上利用Apache Arrow并与Dask集成,BlazingSQL将扩展开源功能并推动快节奏的数据科学生态系统中的下一波互操作性浪潮。”

对于那些有兴趣的人应该知道 该代码是用C ++编写的,并为用户提供了python接口 并且开放源代码受Apache 2.0许可。

链接是这个。


成为第一个发表评论

发表您的评论

您的电子邮件地址将不会被发表。 必填字段标有 *

*

*

  1. 负责数据:MiguelÁngelGatón
  2. 数据用途:控制垃圾邮件,注释管理。
  3. 合法性:您的同意
  4. 数据通讯:除非有法律义务,否则不会将数据传达给第三方。
  5. 数据存储:Occentus Networks(EU)托管的数据库
  6. 权利:您可以随时限制,恢复和删除您的信息。