BlazingSQLは、データ処理を高速化するためにGPUSを使用するためのソースコードをリリースしました

新しいオープンソースプロジェクトは、分析を次のレベルに引き上げたいと考えており、背後にいる人々は BlazingSQLは最近、SQLエンジンのソースコードをリリースしたと発表しました。 データ処理を高速化するためにGPUで使用されます。 BlazingSQLは完全なDBMSではありませんが、Apache Sparkに匹敵するタスクで、大規模なデータセットを分析および処理するためのエンジンとして位置付けられています。

BlazingSQLに慣れていない人は、次のことを知っておく必要があります。 これは、RAPIDSエコシステム上に構築されたGPUアクセラレーションSQLエンジンです これは、GPUでエンドツーエンドの分析およびデータサイエンスパイプラインを実行するためのオープンソースソフトウェアライブラリのセットです。

チームによると、 BlazingSQLは、大規模なアセンブリで作業するときにユーザーが経験する費用、複雑さ、および遅いペースに対処するために作成されました データの。 BlazingSQLは、表形式(ログ、NetFlow統計など)で保存された大きなデータセット(数十ギガバイト)に対して個別の分析クエリを実行するのに適しています。

GPUを操作するには、一連のRAPIDSライブラリを使用します。一部はNVIDIAの関与で開発され、完全にGPU側で実行されるデータ処理および分析アプリケーションを構築できます(低レベルのCUDAプリミティブと並列計算を使用するためにPythonインターフェイスが提供されています)。

BlazingSQLは、APIの代わりにSQLを使用する機能を提供します RAPIDSで使用されるcuUDFデータ処理(Apache Arrowに基づく)。 BlazingSQLは、cuDFの上で実行され、cuIOライブラリを使用してディスクからデータを読み取る追加のレイヤーです。

SQLクエリは cuUDF関数呼び出しに変換します。これにより、データをGPUにロードできます。 それらに対してマージ、集約、およびフィルター操作を実行します。 数千のGPUにまたがる分散構成の作成をサポートします。

の使用 SQLを使用すると、プロセッサを作成せずにRAPIDSを既存の分析システムと統合できます。 RAPIDSのすべての部分との完全な互換性を維持しながら、追加のDBMSへのデータの中間ロードに頼ることなく、既存の機能をSQLに変換し、cuDFレベルのパフォーマンスを確保します。 分析および機械学習タスクを解決するためのXGBoostおよびcuMLライブラリとの統合のサポートが含まれています。

ブレイジングSQL CSVおよびApacheParquet形式のフラットファイルからクエリを実行できます HDSFやAWSS3などのネットワークおよびクラウドシステムに配置され、結果をGPUメモリに直接転送します。

GPUでの並列化操作とより高速なビデオメモリの使用のおかげで、BlazingSQLでのクエリ実行はApacheSparkよりも最大20倍高速です。

BlazingSQLは、データの操作を大幅に簡素化します。何百ものcuDF関数呼び出しの代わりに、単一のSQLクエリでそれを実行できます。

「BlazingSQLは、信じられないほど高速な分散SQL GPUエンジンだけでなく、シンプルさへの熱心な焦点によって、これらの顧客の懸念に対処します」と、BlazingSQLのCEOであるRodrigoAramburuは次のブログに書いています。 「わずか数行のコードで、BlazingSQLは生データがどこにあってもクエリを実行し、既存のRAPIDSおよび分析スタックと相互運用できます。」

BlazingSQLを使用すると、ユーザーはエンタープライズデータレイクデータセットをGPUメモリ内でGPU DataFrame(GDF)として直接クエリできます。 GDFは、GPUアプリケーション間の相互運用性をサポートするプロジェクトです。 また、共通のGPUメモリデータレイヤーも定義します。

「GPUでApacheArrowを活用し、Daskと統合することで、BlazingSQLはオープンソース機能を拡張し、ペースの速いデータサイエンスエコシステムにおける相互運用性の次の波を推進します。」

興味のある方はそれを知っておくべきです コードはユーザー向けのPythonインターフェースを備えたC ++で記述されています オープンソースはApache2.0ライセンスの下にあります。

リンクはこちらです。


コメントを残す

あなたのメールアドレスが公開されることはありません。 必須フィールドには付いています *

*

*

  1. データの責任者:MiguelÁngelGatón
  2. データの目的:SPAMの制御、コメント管理。
  3. 正当化:あなたの同意
  4. データの伝達:法的義務がある場合を除き、データが第三者に伝達されることはありません。
  5. データストレージ:Occentus Networks(EU)がホストするデータベース
  6. 権利:いつでも情報を制限、回復、削除できます。