BlazingSQL ha liberado su código fuente para el uso de GPUS para acelerar el procesamiento de datos

Un nuovo progetto open source vuole portare l'analisi dei dati al livello successivo ed è che le persone dietro BlazingSQL ha recentemente annunciato di aver rilasciato il codice sorgente per il suo motore SQL, che viene utilizzato nelle GPU per accelerare l'elaborazione dei dati. BlazingSQL non è un DBMS completo, ma è posizionato come un motore per analizzare ed elaborare set di dati di grandi dimensioni, paragonabile nei suoi compiti ad Apache Spark.

Per coloro che non hanno familiarità con BlazingSQL dovrebbe saperlo si tratta di un motore SQL accelerato dalla GPU costruito sull'ecosistema RAPIDS che è un insieme di librerie software open source per l'esecuzione di analisi end-to-end e pipeline di data science su GPU.

Secondo il team, BlazingSQL è stato creato per affrontare le spese, la complessità e il ritmo lento che gli utenti devono affrontare quando lavorano in grandi assiemi di dati. BlazingSQL è adatto per eseguire singole query analitiche su grandi set di dati (decine di gigabyte) archiviati in formati tabulari (ad esempio log, statistiche NetFlow, ecc.).

Per lavorare con la GPU, viene utilizzato un insieme di librerie RAPIDS abAlcuni sviluppati con il coinvolgimento di NVIDIA, consentono di creare applicazioni di elaborazione e analisi dei dati che girano interamente sul lato GPU (viene fornita un'interfaccia Python per utilizzare primitive CUDA di basso livello e calcoli paralleli).

BlazingSQL offre la possibilità di utilizzare SQL invece dell'API Elaborazione dati cuUDF (basata su Apache Arrow) usata da RAPIDS. BlazingSQL è un livello aggiuntivo che viene eseguito sopra cuDF e utilizza la libreria cuIO per leggere i dati dal disco.

Le query SQL sono si traducono in chiamate di funzione cuUDF, che consentono di caricare i dati sulla GPU ed eseguire operazioni di unione, aggregazione e filtro su di essi. Supporta la creazione di configurazioni distribuite su migliaia di GPU.

L'uso di SQL consente a RAPIDS di essere integrato con i sistemi analitici esistenti senza scrivere processori senza ricorrere al caricamento intermedio dei dati in un DBMS aggiuntivo, mantenendo la piena compatibilità con tutte le parti di RAPIDS, traducendo le funzionalità esistenti in SQL e garantendo prestazioni a livello di cuDF. Include il supporto per l'integrazione con XGBoost e le librerie cuML per risolvere attività di analisi e apprendimento automatico.

BlazingSQL può eseguire query da file flat nei formati CSV e Apache Parquet situato in sistemi di rete e cloud come HDSF e AWS S3, trasferendo direttamente il risultato nella memoria della GPU.

Grazie alle operazioni di parallelizzazione sulla GPU e all'uso di una memoria video più veloce, l'esecuzione delle query in BlazingSQL è fino a 20 volte più veloce rispetto ad Apache Spark.

BlazingSQL semplifica enormemente il lavoro con i dati: invece di centinaia di chiamate di funzione cuDF, puoi farlo con una singola query SQL.

"BlazingSQL affronta queste preoccupazioni dei clienti non solo con un motore GPU SQL incredibilmente veloce e distribuito, ma anche una zelante attenzione alla semplicità", ha scritto in un blog successivo Rodrigo Aramburu, CEO di BlazingSQL. "Con poche righe di codice, BlazingSQL può interrogare i tuoi dati grezzi, ovunque risiedano, e interagire con i tuoi RAPIDS esistenti e lo stack di analisi".

BlazingSQL consente agli utenti di eseguire query sui set di dati del data lake aziendale direttamente nella memoria della GPU come GPU DataFrame (GDF). GDF è un progetto che offre supporto per l'interoperabilità tra le applicazioni GPU. Definisce anche un livello di dati di memoria GPU comune.

"Sfruttando Apache Arrow su GPU e integrandosi con Dask, BlazingSQL estenderà le funzionalità open source e guiderà la prossima ondata di interoperabilità nel frenetico ecosistema della scienza dei dati".

Per coloro che sono interessati dovrebbe saperlo il codice è scritto in C ++ con un'interfaccia python per gli utenti e l'open source è sotto la licenza Apache 2.0.

Il collegamento è questo.

DesdeLinux

BlazingSQL ha rilasciato il suo codice sorgente per l'utilizzo di GPUS per accelerare l'elaborazione dei dati

Lascia un tuo commento Annulla risposta