BlazingSQL on julkaissut lähdekoodin GPUS: n käyttöä varten tietojen käsittelyn nopeuttamiseksi

Uusi avoimen lähdekoodin projekti haluaa viedä analytiikan seuraavalle tasolle ja on, että ihmiset takana BlazingSQL ilmoitti äskettäin julkaisevansa lähdekoodin SQL-moottorilleen, jota käytetään näytönohjaimissa tietojen käsittelyn nopeuttamiseksi. BlazingSQL ei ole täydellinen DBMS, mutta se on sijoitettu moottoriksi analysoimaan ja käsittelemään suuria tietojoukkoja, jotka tehtävissään ovat verrattavissa Apache Sparkiin.

Niille, joille BlazingSQL ei ole tuttu, tulisi tietää se tämä on GPU-nopeutettu SQL-moottori, joka on rakennettu RAPIDS-ekosysteemiin joka on joukko avoimen lähdekoodin ohjelmistokirjastoja päästä päähän -analytiikan ja datatieteen putkistojen suorittamiseksi GPU: lla.

Joukkueen mukaan BlazingSQL luotiin vastaamaan kustannuksiin, monimutkaisuuteen ja hitaaseen tahtiin, jotka käyttäjät kokevat työskennellessään suurissa kokoonpanoissa tietoja. BlazingSQL soveltuu yksittäisten analyyttisten kyselyjen suorittamiseen suurille tietojoukoille (kymmeniä gigatavuja), jotka on tallennettu taulukkomuotoihin (esim. Lokit, NetFlow-tilastot jne.).

GPU: n kanssa työskentelemiseksi käytetään joukkoa RAPIDS-kirjastojaJotkut kehitettiin NVIDIA: n avulla, jolloin voit rakentaa tietojenkäsittely- ja analyysisovelluksia, jotka toimivat kokonaan GPU-puolella (Python-käyttöliittymä on tarkoitettu käyttämään matalan tason CUDA-primitiivejä ja rinnakkaisia ​​laskelmia).

BlazingSQL tarjoaa mahdollisuuden käyttää SQL: ää API: n sijaan cuUDF-tietojenkäsittely (perustuu Apache Nuoleen), jota RAPIDS käyttää. BlazingSQL on ylimääräinen kerros, joka toimii cuDF: n päällä ja käyttää cuIO-kirjastoa lukemaan tietoja levyltä.

SQL-kyselyt ovat kääntää cuUDF-funktiokutsuiksi, jotka mahdollistavat datan lataamisen GPU: lle ja suorittaa yhdistämisen, yhdistämisen ja suodattamisen. Tukee hajautettujen kokoonpanojen luomista, jotka kattavat tuhansia näytönohjaimia.

käyttäen SQL sallii RAPIDSin integroinnin olemassa oleviin analyyttisiin järjestelmiin kirjoittamatta prosessoreita turvautumatta välitietojen lataamiseen toiseen DBMS: ään samalla, kun ylläpidetään täydellistä yhteensopivuutta kaikkien RAPIDS-osien kanssa, muunnetaan olemassa olevat toiminnot SQL: ksi ja varmistetaan cuDF-tason suorituskyky. Sisältää tuen integraatiolle XGBoost- ja cuML-kirjastojen kanssa analyysi- ja koneoppimistehtävien ratkaisemiseksi.

BlazingSQL voi suorittaa kyselyitä tasaisista tiedostoista CSV- ja Apache-parkettimuodoissa sijaitsevat verkko- ja pilvijärjestelmissä, kuten HDSF ja AWS S3, siirtäen tulokset suoraan GPU-muistiin.

GPU: n rinnakkaistamistoimintojen ja nopeamman videomuistin ansiosta kyselyjen suorittaminen BlazingSQL: ssä on jopa 20 kertaa nopeampi kuin Apache Sparkissa.

BlazingSQL yksinkertaistaa huomattavasti datan käsittelyä - satojen cuDF-funktiokutsujen sijaan voit tehdä sen yhdellä SQL-kyselyllä.

"BlazingSQL ei käsittele näitä asiakasongelmia paitsi uskomattoman nopealla, hajautetulla SQL GPU -moottorilla, mutta myös innokkaalla keskittymisellä yksinkertaisuuteen", BlazingSQL: n toimitusjohtaja Rodrigo Aramburu kirjoitti seuraavassa blogissa. "Vain muutamalla koodirivillä BlazingSQL voi tehdä kyselyn raakatiedoistasi missä tahansa ne ovat, ja toimia yhdessä nykyisen RAPIDS- ja analytiikkapinon kanssa."

BlazingSQL antaa käyttäjille mahdollisuuden kysyä yritystietojärjestelmän tietojoukot suoraan GPU-muistista GPU DataFrame (GDF) -muodossa. GDF on projekti, joka tarjoaa tukea GPU-sovellusten yhteentoimivuudelle. Se määrittelee myös yhteisen GPU-muistitietokerroksen.

"BlazingSQL laajentaa avoimen lähdekoodin toimintoja ja ajaa seuraavan yhteentoimivuusnopeuden nopeatempoisessa datatieteen ekosysteemissä hyödyntämällä Apache Arrow -näytönohjaimia ja integroimalla Daskin kanssa."

Kiinnostuneiden tulisi tietää se koodi kirjoitetaan C ++ - muodossa käyttäjille tarkoitetulla python-käyttöliittymällä ja avoin lähdekoodi on Apache 2.0 -lisenssin alla.

Linkki on tämä.


Jätä kommentti

Sähköpostiosoitettasi ei julkaista. Pakolliset kentät on merkitty *

*

*

  1. Vastuussa tiedoista: Miguel Ángel Gatón
  2. Tietojen tarkoitus: Roskapostin hallinta, kommenttien hallinta.
  3. Laillistaminen: Suostumuksesi
  4. Tietojen välittäminen: Tietoja ei luovuteta kolmansille osapuolille muutoin kuin lain nojalla.
  5. Tietojen varastointi: Occentus Networks (EU) isännöi tietokantaa
  6. Oikeudet: Voit milloin tahansa rajoittaa, palauttaa ja poistaa tietojasi.