أصدر BlazingSQL كود المصدر الخاص به لاستخدام GPUS لتسريع معالجة البيانات

يريد مشروع مفتوح المصدر جديد نقل التحليلات إلى المستوى التالي وهو الأشخاص الذين يقفون وراءهم أعلنت BlazingSQL مؤخرًا أنها أصدرت شفرة المصدر لمحرك SQL الخاص بها ، والتي تُستخدم في وحدات معالجة الرسومات لتسريع معالجة البيانات. BlazingSQL ليس نظام إدارة قواعد بيانات كاملًا ، ولكن يتم وضعه كمحرك لتحليل ومعالجة مجموعات البيانات الكبيرة ، والتي يمكن مقارنتها في مهامها مع Apache Spark.

بالنسبة لأولئك الذين ليسوا على دراية بـ BlazingSQL يجب أن يعرفوا ذلك هذا محرك SQL مُسارع بواسطة GPU مبني على نظام RAPIDS البيئي وهي مجموعة من مكتبات البرمجيات مفتوحة المصدر لتشغيل التحليلات الشاملة وخطوط أنابيب علوم البيانات على وحدات معالجة الرسومات.

وفقا للفريق ، تم إنشاء BlazingSQL للتعامل مع النفقات والتعقيد والوتيرة البطيئة التي يواجهها المستخدمون عند العمل في مجموعات كبيرة البيانات. يعد BlazingSQL مناسبًا لإجراء استعلامات تحليلية فردية على مجموعات بيانات كبيرة (عشرات الجيجابايت) مخزنة في تنسيقات جدولية (مثل السجلات وإحصائيات NetFlow وما إلى ذلك).

للعمل مع GPU ، يتم استخدام مجموعة من مكتبات RAPIDS abتم تطوير بعضها بمشاركة NVIDIA ، مما يسمح لك بإنشاء تطبيقات معالجة البيانات وتحليلها التي تعمل بالكامل على جانب GPU (يتم توفير واجهة Python لاستخدام بدائل CUDA منخفضة المستوى والحسابات المتوازية).

يوفر BlazingSQL القدرة على استخدام SQL بدلاً من واجهة برمجة التطبيقات معالجة بيانات cuUDF (بناءً على سهم Apache) المستخدمة بواسطة RAPIDS. BlazingSQL عبارة عن طبقة إضافية تعمل أعلى cuDF وتستخدم مكتبة cuIO لقراءة البيانات من القرص.

استعلامات SQL هي ترجم إلى استدعاءات دالة cuUDF ، والتي تسمح بتحميل البيانات على وحدة معالجة الرسومات وتنفيذ عمليات الدمج والتجميع والتصفية عليها. يدعم إنشاء التكوينات الموزعة التي تغطي آلاف وحدات معالجة الرسومات.

استخدام يسمح SQL لدمج RAPIDS مع الأنظمة التحليلية الحالية بدون معالجات الكتابة دون اللجوء إلى التحميل الوسيط للبيانات في نظام DBMS إضافي ، مع الحفاظ على التوافق الكامل مع جميع أجزاء RAPIDS ، وترجمة الوظائف الحالية إلى SQL ، وضمان الأداء على مستوى cuDF. يتضمن دعمًا للتكامل مع مكتبات XGBoost و cuML لحل مهام التحليل والتعلم الآلي.

اشتعلت فيه النيران يمكن تشغيل الاستعلامات من الملفات المسطحة بتنسيقات CSV و Apache Parquet موجود على أنظمة الشبكة والسحابة مثل HDSF و AWS S3 ، مما يؤدي إلى نقل النتيجة مباشرة إلى ذاكرة وحدة معالجة الرسومات.

بفضل عمليات الموازاة على وحدة معالجة الرسومات واستخدام ذاكرة فيديو أسرع ، فإن تنفيذ الاستعلام في BlazingSQL أسرع بما يصل إلى 20 مرة من Apache Spark.

يبسط BlazingSQL العمل مع البيانات إلى حد كبير - بدلاً من مئات استدعاءات دالة cuDF ، يمكنك القيام بذلك باستخدام استعلام SQL واحد.

كتب Rodrigo Aramburu ، الرئيس التنفيذي لشركة BlazingSQL ، في مدونة لاحقة: "تعالج BlazingSQL مخاوف العملاء هذه ليس فقط من خلال محرك GPU الموزع وسريع بشكل لا يصدق ، ولكن أيضًا بالتركيز الشديد على البساطة". "باستخدام بضعة أسطر فقط من التعليمات البرمجية ، يمكن لـ BlazingSQL الاستعلام عن بياناتك الأولية ، أينما كانت ، والتعامل مع مجموعة RAPIDS والتحليلات الموجودة لديك."

يتيح BlazingSQL للمستخدمين الاستعلام عن مجموعات بيانات بحيرة بيانات المؤسسة مباشرةً في ذاكرة وحدة معالجة الرسومات كإطار بيانات GPU (GDF). GDF هو مشروع يقدم دعمًا للتشغيل البيني بين تطبيقات GPU. كما تحدد طبقة بيانات ذاكرة GPU مشتركة.

"من خلال الاستفادة من Apache Arrow على وحدات معالجة الرسومات والدمج مع Dask ، ستعمل BlazingSQL على توسيع وظائف المصدر المفتوح ودفع الموجة التالية من قابلية التشغيل البيني في نظام علم البيانات سريع الخطى."

لمن يهتم يجب أن يعرف ذلك تمت كتابة الكود بلغة C ++ بواجهة Python للمستخدمين والمصدر المفتوح يخضع لترخيص Apache 2.0.

الرابط هو هذا.


اترك تعليقك

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها ب *

*

*

  1. المسؤول عن البيانات: ميغيل أنخيل جاتون
  2. الغرض من البيانات: التحكم في الرسائل الاقتحامية ، وإدارة التعليقات.
  3. الشرعية: موافقتك
  4. توصيل البيانات: لن يتم إرسال البيانات إلى أطراف ثالثة إلا بموجب التزام قانوني.
  5. تخزين البيانات: قاعدة البيانات التي تستضيفها شركة Occentus Networks (الاتحاد الأوروبي)
  6. الحقوق: يمكنك في أي وقت تقييد معلوماتك واستعادتها وحذفها.