BlazingSQL کد منبع خود را برای استفاده از GPUS برای سرعت بخشیدن به پردازش داده ها منتشر کرده است

یک پروژه منبع باز جدید می خواهد تجزیه و تحلیل ها را به سطح بعدی برساند و این است که افراد عقب مانده BlazingSQL اخیراً اعلام کرده است که کد منبع موتور SQL خود را منتشر کرده است ، که در پردازنده های گرافیکی برای سرعت بخشیدن به پردازش داده ها استفاده می شود. BlazingSQL یک DBMS کامل نیست ، اما به عنوان موتوری برای تجزیه و تحلیل و پردازش مجموعه داده های بزرگ قرار گرفته است ، که در مقایسه با Apache Spark قابل مقایسه است.

برای کسانی که با BlazingSQL آشنا نیستند باید این را بدانند این یک موتور SQL شتاب دهنده GPU است که بر روی اکوسیستم RAPIDS ساخته شده است که مجموعه ای از کتابخانه های نرم افزار منبع باز برای اجرای خطوط انتهایی به تجزیه و تحلیل و علوم داده در GPU است.

به گفته تیم ، BlazingSQL برای رفع هزینه ، پیچیدگی و سرعت کندی که کاربران هنگام کار در مجامع بزرگ با آن روبرو هستند ایجاد شد از داده ها BlazingSQL برای انجام پرسش های تحلیلی منفرد در مجموعه داده های بزرگ (ده ها گیگابایت) ذخیره شده در قالب های جداولی (به عنوان مثال گزارش ها ، آمار NetFlow و غیره) مناسب است.

برای کار با GPU ، مجموعه ای از کتابخانه های RAPIDS در ab استفاده می شودبرخی از آنها با مشارکت NVIDIA ساخته شده اند ، به شما امکان می دهد برنامه های پردازش و تجزیه و تحلیل داده ها را که کاملاً در سمت GPU اجرا می شوند ایجاد کنید (یک رابط پایتون برای استفاده از بدویهای CUDA سطح پایین و محاسبات موازی ارائه شده است).

BlazingSQL امکان استفاده از SQL به جای API را فراهم می کند پردازش داده های cuUDF (براساس Apache Arrow) مورد استفاده RAPIDS. BlazingSQL یک لایه اضافی است که در بالای cuDF اجرا می شود و از کتابخانه cuIO برای خواندن داده ها از دیسک استفاده می کند.

نمایش داده شد SQL هستند به تماس های تابع cuUDF ترجمه می شود ، که اجازه می دهد داده ها در GPU بارگیری شوند و عملیات ادغام ، جمع و فیلتر را روی آنها انجام دهید. پشتیبانی از ایجاد تنظیمات توزیع شده که شامل هزاران پردازنده گرافیکی است.

با استفاده از SQL به RAPIDS اجازه می دهد بدون پردازشگر نوشتن با سیستم های تحلیلی موجود ادغام شود بدون استفاده از بارگذاری متوسط ​​داده ها در یک DBMS اضافی ، ضمن حفظ سازگاری کامل با تمام قسمت های RAPIDS ، ترجمه قابلیت های موجود به SQL و اطمینان از عملکرد در سطح cuDF. شامل پشتیبانی از ادغام با کتابخانه های XGBoost و cuML برای حل وظایف تجزیه و تحلیل و یادگیری ماشین.

BlazingSQL می تواند درخواست ها را از پرونده های تخت با فرمت های CSV و Apache Parquet اجرا کند واقع در شبکه و سیستم های ابری مانند HDSF و AWS S3 ، انتقال مستقیم نتیجه به حافظه GPU.

با تشکر از عملیات موازی سازی در GPU و استفاده از حافظه ویدئویی سریعتر ، اجرای پرس و جو در BlazingSQL تا 20 برابر سریعتر از Apache Spark است.

BlazingSQL کار با داده ها را بسیار ساده می کند - به جای صدها تماس تابع cuDF ، می توانید این کار را با یک جستجوی SQL انجام دهید.

رودریگو آرامبورو ، مدیرعامل BlazingSQL ، در وبلاگ بعدی نوشت: "BlazingSQL این مشکلات مشتری را نه تنها با یک موتور GPU SQL توزیع شده فوق العاده سریع ، بلکه تمرکز غیرتمندانه روی سادگی نیز برطرف می کند." "فقط با چند خط کد ، BlazingSQL می تواند داده های خام شما را در هر کجا که قرار دارد پرس و جو کند و با RAPIDS و پشته تجزیه و تحلیل موجود شما همکاری کند."

BlazingSQL به کاربران امکان می دهد مجموعه داده های دریاچه داده های سازمانی را مستقیماً به عنوان GPU DataFrame (GDF) در حافظه GPU جستجو کنند. GDF پروژه ای است که پشتیبانی از قابلیت همکاری بین برنامه های GPU را ارائه می دهد. همچنین یک لایه داده مشترک حافظه GPU را تعریف می کند.

"با استفاده از Apache Arrow بر روی پردازنده های گرافیکی و ادغام با Dask ، BlazingSQL قابلیت منبع باز را گسترش می دهد و موج بعدی همکاری را در اکوسیستم علم داده با سرعت بالا هدایت می کند."

برای کسانی که علاقه مند هستند باید این را بدانند کد به زبان C ++ با رابط پایتون برای کاربران نوشته شده است و منبع باز تحت مجوز Apache 2.0 است.

پیوند این است.


محتوای مقاله به اصول ما پیوست اخلاق تحریریه. برای گزارش یک خطا کلیک کنید اینجا.

اولین کسی باشید که نظر

نظر خود را بگذارید

نشانی ایمیل شما منتشر نخواهد شد. بخشهای موردنیاز علامتگذاری شدهاند با *

*

*

  1. مسئول داده ها: میگل آنخل گاتون
  2. هدف از داده ها: کنترل هرزنامه ، مدیریت نظرات.
  3. مشروعیت: رضایت شما
  4. ارتباط داده ها: داده ها به اشخاص ثالث منتقل نمی شوند مگر با تعهد قانونی.
  5. ذخیره سازی داده ها: پایگاه داده به میزبانی شبکه های Occentus (EU)
  6. حقوق: در هر زمان می توانید اطلاعات خود را محدود ، بازیابی و حذف کنید.