BlazingSQL har frigivet sin kildekode til brug af GPUS til at fremskynde databehandlingen

Et nyt open source-projekt ønsker at tage analyser til det næste niveau og er, at folkene bagved BlazingSQL meddelte for nylig, at det har frigivet kildekoden til sin SQL-motor, som bruges i GPU'er til at fremskynde databehandlingen. BlazingSQL er ikke en komplet DBMS, men den er placeret som en motor til at analysere og behandle store datasæt, der kan sammenlignes med sine opgaver med Apache Spark.

For dem, der ikke er bekendt med BlazingSQL, skal vide det dette er en GPU-accelereret SQL-motor bygget på RAPIDS-økosystemet som er et sæt open source softwarebiblioteker til kørsel af end-to-end-analyse- og datalogi-rørledninger på GPU'er.

Ifølge holdet BlazingSQL blev oprettet for at imødegå udgifter, kompleksitet og langsomt tempo, som brugerne står over for, når de arbejder i store samlinger af data. BlazingSQL er velegnet til at udføre individuelle analytiske forespørgsler på store datasæt (snesevis af gigabyte) gemt i tabelformater (f.eks. Logfiler, NetFlow-statistikker osv.).

For at arbejde med GPU'en bruges et sæt RAPIDS-biblioteker abNogle er udviklet med involvering af NVIDIA, så du kan oprette databehandlings- og analyseprogrammer, der kører helt på GPU-siden (en Python-grænseflade leveres til at bruge CUDA-primitiver på lavt niveau og parallelle beregninger).

BlazingSQL giver mulighed for at bruge SQL i stedet for API cuUDF databehandling (baseret på Apache Arrow) brugt af RAPIDS. BlazingSQL er et ekstra lag, der kører oven på cuDF og bruger cuIO-biblioteket til at læse data fra disken.

SQL-forespørgsler er oversættes til cuUDF-funktionskald, som gør det muligt at indlæse data på GPU'en og udføre flette-, sammenlægnings- og filtreringsoperationer på dem. Understøtter oprettelsen af ​​distribuerede konfigurationer, der spænder over tusinder af GPU'er.

Anvendelsen af SQL gør det muligt at integrere RAPIDS med eksisterende analysesystemer uden at skrive processorer uden at ty til mellemliggende indlæsning af data i en ekstra DBMS, samtidig med at den opretholder fuld kompatibilitet med alle dele af RAPIDS, oversætter eksisterende funktionalitet til SQL og sikrer ydeevne på cuDF-niveau. Inkluderer support til integration med XGBoost- og cuML-biblioteker til løsning af analyse- og maskinlæringsopgaver.

BlazingSQL kan køre forespørgsler fra flade filer i CSV- og Apache Parquet-formater placeret på netværks- og cloudsystemer som HDSF og AWS S3, hvilket direkte overfører resultatet til GPU-hukommelsen.

Takket være paralleliseringsoperationer på GPU'en og brugen af ​​hurtigere videohukommelse er udførelse af forespørgsler i BlazingSQL op til 20 gange hurtigere end i Apache Spark.

BlazingSQL forenkler i høj grad arbejdet med data - i stedet for hundreder af cuDF-funktionsopkald kan du gøre det med en enkelt SQL-forespørgsel.

"BlazingSQL adresserer disse kunders bekymringer ikke kun med en utrolig hurtig, distribueret SQL GPU-motor, men også et nidkært fokus på enkelhed," skrev Rodrigo Aramburu, administrerende direktør for BlazingSQL, i en efterfølgende blog. "Med blot et par kodelinjer kan BlazingSQL forespørge om dine rådata, uanset hvor de befinder sig, og interoperere med din eksisterende RAPIDS- og analysestak."

BlazingSQL giver brugerne mulighed for at forespørge datasæt-søs datasæt direkte i GPU-hukommelse som en GPU DataFrame (GDF). GDF er et projekt, der tilbyder support til interoperabilitet mellem GPU-applikationer. Det definerer også et fælles GPU-hukommelsesdatalag.

"Ved at udnytte Apache Arrow på GPU'er og integrere med Dask, udvider BlazingSQL open source-funktionalitet og driver den næste bølge af interoperabilitet i det hurtige datavidenskabelige økosystem."

For dem, der er interesserede, skal vide det koden er skrevet i C ++ med en python-grænseflade til brugerne og open source er under Apache 2.0-licensen.

Linket er dette.


Indholdet af artiklen overholder vores principper for redaktionel etik. Klik på for at rapportere en fejl her.

Vær den første til at kommentere

Efterlad din kommentar

Din e-mailadresse vil ikke blive offentliggjort. Obligatoriske felter er markeret med *

*

*

  1. Ansvarlig for dataene: Miguel Ángel Gatón
  2. Formålet med dataene: Control SPAM, management af kommentarer.
  3. Legitimering: Dit samtykke
  4. Kommunikation af dataene: Dataene vil ikke blive kommunikeret til tredjemand, undtagen ved juridisk forpligtelse.
  5. Datalagring: Database hostet af Occentus Networks (EU)
  6. Rettigheder: Du kan til enhver tid begrænse, gendanne og slette dine oplysninger.