BlazingSQL ka lëshuar kodin e saj burimor për përdorimin e GPUS për të shpejtuar përpunimin e të dhënave

Një projekt i ri me burim të hapur dëshiron të çojë analizat në nivelin tjetër dhe është se njerëzit prapa BlazingSQL së fundmi njoftoi se ka lëshuar kodin burimor për motorin e saj SQL, e cila përdoret në GPU për të shpejtuar përpunimin e të dhënave. BlazingSQL nuk është një DBMS i plotë, por është pozicionuar si një motor për të analizuar dhe përpunuar grupe të mëdha të të dhënave, të krahasueshme në detyrat e saj me Apache Spark.

Për ata që nuk janë të njohur me BlazingSQL duhet ta dinë këtë ky është një motor SQL i përshpejtuar nga GPU i ndërtuar në ekosistemin RAPIDS i cili është një grup i bibliotekave të softuerit me burim të hapur për drejtimin e tubacioneve fund-për-fund dhe të shkencës së të dhënave në GPU.

Sipas ekipit, BlazingSQL u krijua për të adresuar shpenzimet, kompleksitetin dhe ritmin e ngadaltë me të cilin përballen përdoruesit kur punojnë në asamble të mëdha të të dhënave. BlazingSQL është i përshtatshëm për kryerjen e pyetjeve individuale analitike në grupe të mëdha të të dhënave (dhjetëra gigabajt) të ruajtura në formate tabelare (p.sh. regjistrat, statistikat e NetFlow, etj.).

Për të punuar me GPU, përdoret një sërë bibliotekash RAPIDS abDisa u zhvilluan me përfshirjen e NVIDIA, duke ju lejuar të krijoni aplikacione të përpunimit dhe analizës së të dhënave që funksionojnë tërësisht në anën e GPU (sigurohet një ndërfaqe Python për të përdorur primitivë të niveleve të ulëta CUDA dhe llogaritjet paralele).

BlazingSQL siguron mundësinë e përdorimit të SQL në vend të API përpunimi i të dhënave cuUDF (bazuar në Apache Arrow) i përdorur nga RAPIDS. BlazingSQL është një shtresë shtesë që funksionon në krye të cuDF dhe përdor bibliotekën cuIO për të lexuar të dhëna nga disku.

Kërkesat SQL janë përkthehen në thirrje të funksionit cuUDF, të cilat lejojnë që të dhënat të ngarkohen në GPU dhe kryej operacione bashkimi, grumbullimi dhe filtrimi mbi to. Mbështet krijimin e konfigurimeve të shpërndara që përfshijnë mijëra GPU.

Përdorimi i SQL lejon që RAPIDS të integrohen me sistemet ekzistuese analitike pa përpunimin e shkruesve pa përdorur ngarkimin e ndërmjetëm të të dhënave në një DBMS shtesë, duke ruajtur pajtueshmërinë e plotë me të gjitha pjesët e RAPIDS, duke përkthyer funksionalitetin ekzistues në SQL dhe duke siguruar performancë në nivelin cuDF. Përfshin mbështetjen për integrimin me bibliotekat XGBoost dhe cuML për të zgjidhur detyrat e analizës dhe të të mësuarit makinerik.

BlazingSQL mund të ekzekutojë pyetje nga skedarët e sheshtë në formatet CSV dhe Apache Parquet të vendosura në rrjet dhe sisteme cloud si HDSF dhe AWS S3, duke transferuar drejtpërdrejt rezultatin në memorjen GPU.

Falë operacioneve të paralelizimit në GPU dhe përdorimit të kujtesës më të shpejtë të videos, ekzekutimi i pyetjes në BlazingSQL është deri në 20 herë më i shpejtë sesa në Apache Spark.

BlazingSQL thjeshton shumë punën me të dhëna - në vend të qindra thirrjeve të funksionit cuDF, mund ta bëni me një pyetje të vetme SQL.

"BlazingSQL adreson këto shqetësime të klientëve jo vetëm me një motor tepër të shpejtë, të shpërndarë SQL GPU, por edhe një fokus të zellshëm në thjeshtësi," shkroi Rodrigo Aramburu, CEO i BlazingSQL, në një blog pasues. "Me vetëm disa rreshta të kodit, BlazingSQL mund të kërkojë të dhënat tuaja të papërpunuara, kudo që banojnë, dhe të ndërveprojë me RAPIDS tuaj ekzistues dhe pirgjeve të analizave."

BlazingSQL u mundëson përdoruesve të kërkojnë grupe të të dhënave të liqenit të të dhënave të ndërmarrjes direkt në kujtesën e GPU-së si GPU e të dhënave (GDF). GDF është një projekt që ofron mbështetje për ndërveprimin midis aplikacioneve GPU. Ajo gjithashtu përcakton një shtresë të përbashkët të të dhënave të memorjes GPU.

"Duke përdorur Apache Arrow në GPU dhe duke u integruar me Dask, BlazingSQL do të zgjerojë funksionalitetin e burimit të hapur dhe do të drejtojë valën tjetër të ndërveprimit në ekosistemin e shpejtë të shkencës së të dhënave."

Për ata që janë të interesuar duhet ta dinë këtë kodi është shkruar në C ++ me një ndërfaqe python për përdoruesit dhe burimi i hapur është nën licencën Apache 2.0.

Lidhja është kjo.


Lini komentin tuaj

Adresa juaj e emailit nuk do të publikohet. Fusha e kërkuar janë shënuar me *

*

*

  1. Përgjegjës për të dhënat: Miguel Ángel Gatón
  2. Qëllimi i të dhënave: Kontrolloni SPAM, menaxhimin e komenteve.
  3. Legjitimimi: Pëlqimi juaj
  4. Komunikimi i të dhënave: Të dhënat nuk do t'u komunikohen palëve të treta përveç me detyrim ligjor.
  5. Ruajtja e të dhënave: Baza e të dhënave e organizuar nga Occentus Networks (BE)
  6. Të drejtat: Në çdo kohë mund të kufizoni, rikuperoni dhe fshini informacionin tuaj.