BlazingSQL heeft zijn broncode vrijgegeven voor het gebruik van GPUS om gegevensverwerking te versnellen

Een nieuw open source project wil analytics naar een hoger niveau tillen en is dat de mensen erachter BlazingSQL heeft onlangs aangekondigd dat het de broncode voor zijn SQL-engine heeft vrijgegeven, die wordt gebruikt in GPU's om gegevensverwerking te versnellen. BlazingSQL is geen compleet DBMS, maar is gepositioneerd als een motor om grote datasets te analyseren en te verwerken, vergelijkbaar in zijn taken met Apache Spark.

Voor degenen die niet bekend zijn met BlazingSQL zouden dat moeten weten dit is een GPU-versnelde SQL-engine die is gebouwd op het RAPIDS-ecosysteem dat is een set open source softwarebibliotheken voor het uitvoeren van end-to-end analytics en data science-pijplijnen op GPU's.

Volgens het team BlazingSQL is gemaakt om de kosten, complexiteit en trage snelheid aan te pakken die gebruikers ervaren bij het werken in grote assemblages Van de gegevens. BlazingSQL is geschikt voor het uitvoeren van individuele analytische zoekopdrachten op grote datasets (tientallen gigabytes) die zijn opgeslagen in tabelformaten (bijv. Logboeken, NetFlow-statistieken, enz.).

Om met de GPU te werken, wordt een set RAPIDS-bibliotheken gebruikt abSommige zijn ontwikkeld met de betrokkenheid van NVIDIA, waardoor u gegevensverwerkings- en analyse-applicaties kunt bouwen die volledig op de GPU-zijde draaien (er wordt een Python-interface geleverd om CUDA-primitieven op laag niveau en parallelle berekeningen te gebruiken).

BlazingSQL biedt de mogelijkheid om SQL te gebruiken in plaats van de API cuUDF-gegevensverwerking (gebaseerd op Apache Arrow) gebruikt door RAPIDS. BlazingSQL is een extra laag die bovenop cuDF draait en de cuIO-bibliotheek gebruikt om gegevens van schijf te lezen.

SQL-query's zijn vertalen in cuUDF-functieaanroepen, waarmee gegevens op de GPU kunnen worden geladen en voer samenvoeg-, aggregatie- en filterbewerkingen uit op hen. Ondersteunt het maken van gedistribueerde configuraties die duizenden GPU's beslaan.

Het gebruik van Met SQL kan RAPIDS worden geïntegreerd met bestaande analytische systemen zonder processors te hoeven schrijven zonder toevlucht te nemen tot het tussentijds laden van gegevens in een extra DBMS, terwijl volledige compatibiliteit met alle delen van RAPIDS behouden blijft, bestaande functionaliteit naar SQL wordt vertaald en prestaties op cuDF-niveau worden gegarandeerd. Bevat ondersteuning voor integratie met XGBoost- en cuML-bibliotheken om analyse- en machine learning-taken op te lossen.

BlazingSQL kan query's uitvoeren vanuit platte bestanden in CSV- en Apache Parquet-indelingen gevestigd in netwerk- en cloudsystemen zoals HDSF en AWS S3, en brengt het resultaat direct over naar het GPU-geheugen.

Dankzij de parallellisatiebewerkingen op de GPU en het gebruik van sneller videogeheugen, is het uitvoeren van query's in BlazingSQL tot 20 keer sneller dan in Apache Spark.

BlazingSQL vereenvoudigt het werken met gegevens aanzienlijk - in plaats van honderden cuDF-functieaanroepen kunt u het doen met een enkele SQL-query.

"BlazingSQL lost deze problemen van klanten niet alleen op met een ongelooflijk snelle, gedistribueerde SQL GPU-engine, maar ook met een ijverige focus op eenvoud", schreef Rodrigo Aramburu, CEO van BlazingSQL, in een volgende blog. "Met een paar regels code kan BlazingSQL uw onbewerkte gegevens opvragen, waar deze zich ook bevinden, en samenwerken met uw bestaande RAPIDS- en analysestack."

Met BlazingSQL kunnen gebruikers gegevenssets van enterprise data lake rechtstreeks in het GPU-geheugen opvragen als een GPU DataFrame (GDF). GDF is een project dat ondersteuning biedt voor interoperabiliteit tussen GPU-applicaties. Het definieert ook een algemene gegevenslaag van het GPU-geheugen.

"Door gebruik te maken van Apache Arrow op GPU's en te integreren met Dask, zal BlazingSQL de open source-functionaliteit uitbreiden en de volgende golf van interoperabiliteit in het snelle data science-ecosysteem stimuleren."

Voor degenen die geïnteresseerd zijn, moeten dat weten de code is geschreven in C ++ met een python-interface voor gebruikers en de open source valt onder de Apache 2.0-licentie.

De link is dit.


Laat je reactie achter

Uw e-mailadres wordt niet gepubliceerd. Verplichte velden zijn gemarkeerd met *

*

*

  1. Verantwoordelijk voor de gegevens: Miguel Ángel Gatón
  2. Doel van de gegevens: Controle SPAM, commentaarbeheer.
  3. Legitimatie: uw toestemming
  4. Mededeling van de gegevens: De gegevens worden niet aan derden meegedeeld, behalve op grond van wettelijke verplichting.
  5. Gegevensopslag: database gehost door Occentus Networks (EU)
  6. Rechten: u kunt uw gegevens op elk moment beperken, herstellen en verwijderen.