BlazingSQL нь өгөгдөл боловсруулалтыг хурдасгах зорилгоор GPUS ашиглах эх кодыг гаргасан

Нээлттэй эх үүсвэртэй шинэ төсөл нь анализыг дараагийн түвшинд хүргэхийг хүсч байгаа бөгөөд ард нь байгаа хүмүүс юм BlazingSQL саяхан SQL хөдөлгүүрийнхээ эх кодыг гаргасан гэдгээ зарлав. өгөгдлийг боловсруулалтыг хурдасгах зорилгоор GPU-д ашигладаг. BlazingSQL нь бүрэн ДБС биш боловч Apache Spark-тэй харьцуулж болохуйц хэмжээний өгөгдлийн багцыг шинжлэх, боловсруулах хөдөлгүүрийн үүргийг гүйцэтгэдэг.

BlazingSQL-ийг мэдэхгүй хүмүүст үүнийг мэддэг байх ёстой Энэ бол RAPIDS экосистем дээр суурилсан GPU хурдасгасан SQL хөдөлгүүр юм Энэ нь GPU дээр төгсгөлөөс аналитик болон өгөгдлийн шинжлэх дамжуулах хоолойг ажиллуулах нээлттэй эхийн програм хангамжийн сангуудын багц юм.

Багийн мэдээлснээр BlazingSQL нь том чуулганд ажиллахад хэрэглэгчид тулгардаг зардал, төвөгтэй байдал, удаан хурдыг шийдвэрлэх зорилгоор бүтээгдсэн болно мэдээллийн. BlazingSQL нь хүснэгтэн форматад хадгалагдсан том хэмжээний өгөгдлийн багц (хэдэн арван гигабайт) дээр дүн шинжилгээ хийх асуултуудыг гүйцэтгэхэд тохиромжтой.

GPU-тэй ажиллахын тулд RAPIDS номын санг ашигласан болноЗарим нь NVIDIA-ийн оролцоотойгоор боловсруулагдсан бөгөөд ингэснээр бүхэлдээ GPU тал дээр ажилладаг өгөгдөл боловсруулах, дүн шинжилгээ хийх програм үүсгэх боломжийг олгодог (Python интерфэйс нь доод түвшний CUDA команд, зэрэгцээ тооцооллыг ашиглах боломжийг олгодог).

BlazingSQL нь API-ийн оронд SQL ашиглах боломжийг олгодог RAPIDS-ийн ашигладаг cuUDF өгөгдөл боловсруулах (Apache Arrow дээр суурилсан). BlazingSQL нь cuDF дээр ажилладаг нэмэлт давхарга бөгөөд cuIO номын санг дискнээс өгөгдлийг уншихад ашигладаг.

SQL асуулга нь өгөгдлийг GPU дээр ачаалах боломжийг олгодог cuUDF функцын дуудлагад хөрвүүлэх тэдгээрийг нэгтгэх, нэгтгэх, шүүх үйлдлийг гүйцэтгэх. Мянга мянган GPU-г хамарсан тараасан тохиргоог бий болгохыг дэмждэг.

Ашиглах нь SQL нь RAPIDS-ийг одоо байгаа аналитик системүүдтэй бичих процессоргүйгээр нэгтгэх боломжийг олгодог нэмэлт DBMS-д өгөгдлийг завсрын ачаалалгүйгээр RAPIDS-ийн бүх хэсэгтэй бүрэн нийцтэй байх, одоо байгаа функцийг SQL руу хөрвүүлэх, cuDF түвшинд гүйцэтгэлийг хангах. XGBoost болон cuML сангуудтай нэгтгэх, дүн шинжилгээ хийх, машин сурах даалгавруудыг шийдвэрлэхэд дэмжлэг орно.

BlazingSQL CSV болон Apache Parquet форматтай хавтгай файлуудаас асуулга явуулж болно HDSF, AWS S3 зэрэг сүлжээ, үүлний систем дээр байрладаг бөгөөд үр дүнг шууд GPU санах ой руу дамжуулдаг.

GPU дээр параллелизаци хийх, видео санах ойг хурдан ашигласны ачаар BlazingSQL-д асуулга гүйцэтгэх нь Apache Spark-ээс 20 дахин хурдан юм.

BlazingSQL нь өгөгдөлтэй ажиллах ажлыг маш хялбаршуулдаг - олон зуун cuDF функцын дуудлага хийхийн оронд та үүнийг нэг SQL асуулга ашиглан хийж болно.

"BlazingSQL нь эдгээр үйлчлүүлэгчдийн анхаарлыг маш хурдан, тархацтай SQL GPU хөдөлгүүрээр хангаж байгаа төдийгүй энгийн байдал дээр анхаарч ажилладаг" гэж BlazingSQL-ийн гүйцэтгэх захирал Родриго Арамбуру дараагийн блогтоо бичжээ. "Цөөхөн хэдэн мөрийн кодоор BlazingSQL нь хаана ч байсан түүхий өгөгдлөө асууж, одоо байгаа RAPIDS болон аналитик стектэйгээ хамтран ажиллах боломжтой."

BlazingSQL нь хэрэглэгчдэд өгөгдлийн нуурын мэдээллийн багцыг GPU санах ойд шууд GPU DataFrame (GDF) хэлбэрээр асуух боломжийг олгодог. GDF нь GPU програмуудын хоорондох харилцан үйлчлэлд дэмжлэг үзүүлэх төсөл юм. Энэ нь нийтлэг GPU санах ойн өгөгдлийн давхаргыг тодорхойлдог.

"Apache Arrow-ийг GPU дээр ашиглаж, Dask-тэй нэгтгэснээр BlazingSQL нь нээлттэй эхийн функцийг өргөжүүлж, хурдан шуурхай өгөгдлийн шинжлэх ухааны экосистемд дараагийн ажиллах давалгааг жолоодох болно."

Сонирхож байгаа хүмүүс үүнийг мэдэж байх ёстой кодыг C ++ дээр хэрэглэгчдэд зориулсан python интерфэйсээр бичсэн болно нээлттэй эх нь Apache 2.0 лицензийн дор байдаг.

Холбоос энэ байна.


Нийтлэлийн агуулга нь бидний зарчмуудыг баримталдаг редакцийн ёс зүй. Алдааны талаар мэдээлэхийн тулд товшино уу энд байна.

Сэтгэгдэл бичих эхний хүн бай

Сэтгэгдэлээ үлдээгээрэй

Таны и-мэйл хаяг хэвлэгдсэн байх болно. Шаардлагатай талбарууд нь тэмдэглэгдсэн байна *

*

*

  1. Мэдээллийг хариуцах: Мигель Анхель Гатан
  2. Мэдээллийн зорилго: СПАМ-ыг хянах, сэтгэгдлийн менежмент.
  3. Хууль ёсны байдал: Таны зөвшөөрөл
  4. Мэдээллийн харилцаа холбоо: Хуулийн үүргээс бусад тохиолдолд мэдээллийг гуравдагч этгээдэд дамжуулахгүй.
  5. Өгөгдөл хадгалах: Occentus Networks (ЕХ) -с зохион байгуулсан мэдээллийн сан
  6. Эрх: Та хүссэн үедээ мэдээллээ хязгаарлаж, сэргээж, устгаж болно.