BlazingSQL a publié son code source pour l'utilisation des GPUS pour accélérer le traitement des données

Un nouveau projet open source veut faire passer l'analyse au niveau supérieur et c'est que les personnes derrière BlazingSQL a récemment annoncé avoir publié le code source de son moteur SQL, qui est utilisé dans les GPU pour accélérer le traitement des données. BlazingSQL n'est pas un SGBD complet, mais il se positionne comme un moteur d'analyse et de traitement de grands ensembles de données, comparables dans ses tâches à Apache Spark.

Ceux qui ne connaissent pas BlazingSQL devraient savoir que il s'agit d'un moteur SQL accéléré par GPU construit sur l'écosystème RAPIDS qui est un ensemble de bibliothèques de logiciels open source pour exécuter des analyses de bout en bout et des pipelines de science des données sur des GPU.

Selon l'équipe, BlazingSQL a été créé pour répondre aux dépenses, à la complexité et à la lenteur des utilisateurs lorsqu'ils travaillent dans de grands assemblages de données. BlazingSQL est adapté pour effectuer des requêtes analytiques individuelles sur de grands ensembles de données (dizaines de gigaoctets) stockés dans des formats tabulaires (par exemple, journaux, statistiques NetFlow, etc.).

Pour travailler avec le GPU, un ensemble de bibliothèques RAPIDS est utilisé abCertains ont été développés avec la participation de NVIDIA, vous permettant de créer des applications de traitement et d'analyse de données qui s'exécutent entièrement du côté GPU (une interface Python est fournie pour utiliser des primitives CUDA de bas niveau et des calculs parallèles).

BlazingSQL offre la possibilité d'utiliser SQL au lieu de l'API Traitement des données cuUDF (basé sur Apache Arrow) utilisé par RAPIDS. BlazingSQL est une couche supplémentaire qui s'exécute au-dessus de cuDF et utilise la bibliothèque cuIO pour lire les données du disque.

Les requêtes SQL sont traduire en appels de fonction cuUDF, qui permettent de charger les données sur le GPU et effectuez des opérations de fusion, d'agrégation et de filtrage sur eux. Prend en charge la création de configurations distribuées couvrant des milliers de GPU.

Utilisation de SQL permet à RAPIDS d'être intégré aux systèmes analytiques existants sans écrire de processeurs sans recourir à un chargement intermédiaire des données dans un SGBD supplémentaire, tout en maintenant une compatibilité totale avec toutes les parties de RAPIDS, en traduisant les fonctionnalités existantes en SQL et en garantissant des performances au niveau cuDF. Inclut la prise en charge de l'intégration avec les bibliothèques XGBoost et cuML pour résoudre les tâches d'analyse et d'apprentissage automatique.

BlazingSQL peut exécuter des requêtes à partir de fichiers plats aux formats CSV et Apache Parquet situé sur des systèmes réseau et cloud tels que HDSF et AWS S3, transférant directement le résultat vers la mémoire du GPU.

Grâce aux opérations de parallélisation sur le GPU et à l'utilisation d'une mémoire vidéo plus rapide, l'exécution des requêtes dans BlazingSQL est jusqu'à 20 fois plus rapide que dans Apache Spark.

BlazingSQL simplifie considérablement le travail avec les données - au lieu de centaines d'appels de fonction cuDF, vous pouvez le faire avec une seule requête SQL.

"BlazingSQL répond à ces préoccupations des clients non seulement avec un moteur GPU SQL incroyablement rapide et distribué, mais aussi avec un accent zélé sur la simplicité", a écrit Rodrigo Aramburu, PDG de BlazingSQL, dans un blog ultérieur. "Avec quelques lignes de code, BlazingSQL peut interroger vos données brutes, où qu'elles se trouvent, et interagir avec votre pile RAPIDS et analytique existante."

BlazingSQL permet aux utilisateurs d'interroger des ensembles de données de lac de données d'entreprise directement dans la mémoire du GPU en tant que GPU DataFrame (GDF). GDF est un projet qui prend en charge l'interopérabilité entre les applications GPU. Il définit également une couche de données de mémoire GPU commune.

"En tirant parti d'Apache Arrow sur les GPU et en s'intégrant à Dask, BlazingSQL étendra les fonctionnalités open source et stimulera la prochaine vague d'interopérabilité dans l'écosystème de la science des données en évolution rapide."

Pour ceux qui sont intéressés devraient savoir que le code est écrit en C ++ avec une interface python pour les utilisateurs et l'open source est sous licence Apache 2.0.

Le lien est le suivant.

DesdeLinux

BlazingSQL a publié son code source pour l'utilisation de GPUS pour accélérer le traitement des données

Laisser un commentaire Annuler la réponse