BlazingSQL har gitt ut kildekoden for bruk av GPUS for å øke hastigheten på databehandling

Et nytt open source-prosjekt ønsker å ta analyser til neste nivå og er at menneskene bak BlazingSQL kunngjorde nylig at de har gitt ut kildekoden for sin SQL-motor, som brukes i GPUer for å øke hastigheten på databehandlingen. BlazingSQL er ikke et komplett DBMS, men det er posisjonert som en motor for å analysere og behandle store datasett, som kan sammenlignes med sine oppgaver til Apache Spark.

For de som ikke er kjent med BlazingSQL, bør vite det dette er en GPU-akselerert SQL-motor bygget på RAPIDS-økosystemet som er et sett med åpen kildekode-programvarebiblioteker for kjøring av end-to-end analyse- og datavitenskapsledninger på GPUer.

I følge teamet, BlazingSQL ble opprettet for å takle bekostning, kompleksitet og sakte tempo som brukere møter når de jobber i store samlinger av data. BlazingSQL er egnet for å utføre individuelle analytiske spørsmål på store datasett (titalls gigabyte) lagret i tabellformater (f.eks. Logger, NetFlow-statistikk, etc.).

For å jobbe med GPU brukes et sett med RAPIDS-biblioteker abNoen utviklet med involvering av NVIDIA, slik at du kan bygge databehandlings- og analyseprogrammer som kjører helt på GPU-siden (et Python-grensesnitt er gitt for å bruke CUDA-primitiver på lavt nivå og parallelle beregninger).

BlazingSQL gir muligheten til å bruke SQL i stedet for API cuUDF databehandling (basert på Apache Arrow) brukt av RAPIDS. BlazingSQL er et ekstra lag som kjører på toppen av cuDF og bruker cuIO-biblioteket til å lese data fra disken.

SQL-spørsmål er oversettes til cuUDF-funksjonssamtaler, som gjør at data kan lastes inn i GPUen og utføre flette-, aggregat- og filteroperasjoner på dem. Støtter opprettelsen av distribuerte konfigurasjoner som spenner over tusenvis av GPUer.

Bruken av SQL lar RAPIDS integreres med eksisterende analysesystemer uten skriveprosessorer uten å ty til mellomlasting av data i et ekstra DBMS, samtidig som du opprettholder full kompatibilitet med alle deler av RAPIDS, oversetter eksisterende funksjonalitet til SQL og sikrer ytelse på cuDF-nivå. Inkluderer støtte for integrering med XGBoost- og cuML-biblioteker for å løse analyse- og maskinlæringsoppgaver.

BlazingSQL kan kjøre spørsmål fra flate filer i CSV- og Apache-parkettformat plassert på nettverks- og skysystemer som HDSF og AWS S3, og overfører resultatet direkte til GPU-minnet.

Takket være parallelliseringsoperasjonene på GPU og bruken av raskere videominne er spørringskjøring i BlazingSQL opptil 20 ganger raskere enn i Apache Spark.

BlazingSQL forenkler i stor grad arbeidet med data - i stedet for hundrevis av cuDF-funksjonsanrop, kan du gjøre det med ett enkelt SQL-spørsmål.

"BlazingSQL adresserer disse kundeproblemene ikke bare med en utrolig rask, distribuert SQL GPU-motor, men også et ivrig fokus på enkelhet," skrev Rodrigo Aramburu, administrerende direktør i BlazingSQL, i en påfølgende blogg. "Med bare noen få kodelinjer kan BlazingSQL spørre rådataene dine, uansett hvor de befinner seg, og samarbeide med din eksisterende RAPIDS og analytics stack."

BlazingSQL gjør det mulig for brukere å spørre datasett for bedriftsdata-innsjø direkte i GPU-minne som en GPU DataFrame (GDF). GDF er et prosjekt som tilbyr støtte for interoperabilitet mellom GPU-applikasjoner. Det definerer også et vanlig GPU-minnedatalag.

"Ved å utnytte Apache Arrow på GPUer og integrere med Dask, vil BlazingSQL utvide åpen kildekodefunksjonalitet og drive neste bølge av interoperabilitet i det raske datavitenskapelige økosystemet."

For de som er interesserte, bør vite det koden er skrevet i C ++ med et python-grensesnitt for brukere og åpen kildekode er under Apache 2.0-lisensen.

Koblingen er denne.


Bli den første til å kommentere

Legg igjen kommentaren

Din e-postadresse vil ikke bli publisert. Obligatoriske felt er merket med *

*

*

  1. Ansvarlig for dataene: Miguel Ángel Gatón
  2. Formålet med dataene: Kontroller SPAM, kommentaradministrasjon.
  3. Legitimering: Ditt samtykke
  4. Kommunikasjon av dataene: Dataene vil ikke bli kommunisert til tredjeparter bortsett fra ved juridisk forpliktelse.
  5. Datalagring: Database vert for Occentus Networks (EU)
  6. Rettigheter: Når som helst kan du begrense, gjenopprette og slette informasjonen din.