BlazingSQL пусна своя изходен код за използване на GPUS за ускоряване на обработката на данни

Нов проект с отворен код иска да изведе аналитиката на следващото ниво и е това, което хората отзад BlazingSQL наскоро обяви, че е пуснал изходния код за своя SQL двигател, което се използва в графичните процесори за ускоряване на обработката на данни. BlazingSQL не е цялостна СУБД, но е позиционирана като двигател за анализ и обработка на големи масиви от данни, сравними по своите задачи с Apache Spark.

За тези, които не са запознати с BlazingSQL, трябва да знаят това това е GPU ускорен SQL двигател, изграден върху екосистемата RAPIDS което представлява набор от софтуерни библиотеки с отворен код за стартиране на цялостни анализи и конвейери за наука за данни на графични процесори.

Според екипа, BlazingSQL е създаден, за да отговори на разходите, сложността и бавното темпо, с които се сблъскват потребителите при работа в големи сглобки на данните. BlazingSQL е подходящ за извършване на отделни аналитични заявки за големи масиви от данни (десетки гигабайта), съхранявани в таблични формати (например дневници, статистика на NetFlow и др.).

За работа с GPU се използва набор от RAPIDS библиотеки abНякои са разработени с участието на NVIDIA, което ви позволява да създавате приложения за обработка и анализ на данни, които работят изцяло от страната на графичния процесор (осигурен е интерфейс на Python, за да се използват примитиви на CUDA на ниско ниво и паралелни изчисления).

BlazingSQL предоставя възможност за използване на SQL вместо API обработка на данни cuUDF (базирана на Apache Arrow), използвана от RAPIDS. BlazingSQL е допълнителен слой, който работи върху cuDF и използва библиотеката cuIO за четене на данни от диска.

SQL заявките са преобразува се в извиквания на функцията cuUDF, които позволяват зареждането на данни в графичния процесор и изпълнявайте операции по обединяване, агрегиране и филтриране върху тях. Поддържа създаването на разпределени конфигурации, обхващащи хиляди графични процесори.

El USO SQL позволява RAPIDS да се интегрира със съществуващите аналитични системи без записващи процесори без да се прибягва до междинно зареждане на данни в допълнителна СУБД, като същевременно се поддържа пълна съвместимост с всички части на RAPIDS, превеждане на съществуващата функционалност в SQL и осигуряване на производителност на ниво cuDF. Включва поддръжка за интеграция с библиотеки XGBoost и cuML за решаване на задачи за анализ и машинно обучение.

BlazingSQL може да изпълнява заявки от плоски файлове във формати CSV и Apache Parquet разположени в мрежови и облачни системи като HDSF и AWS S3, директно прехвърляйки резултата в паметта на GPU.

Благодарение на операциите за успоредяване на графичния процесор и използването на по-бърза видео памет, изпълнението на заявки в BlazingSQL е до 20 пъти по-бързо, отколкото в Apache Spark.

BlazingSQL значително опростява работата с данни - вместо стотици извиквания на функция cuDF, можете да го направите с една SQL заявка.

„BlazingSQL се занимава с тези проблеми на клиентите не само с невероятно бърз, разпределен SQL GPU двигател, но и ревностен фокус върху простотата“, написа Родриго Арамбуру, изпълнителен директор на BlazingSQL, в следващ блог. „Само с няколко реда код, BlazingSQL може да запитва суровите ви данни, където и да се намират, и да взаимодейства със съществуващия ви стек RAPIDS и анализ.“

BlazingSQL дава възможност на потребителите да правят заявки за набори от данни за корпоративни езера директно в GPU паметта като GPU DataFrame (GDF). GDF е проект, който предлага поддръжка за оперативна съвместимост между GPU приложения. Той също така дефинира общ слой данни за GPU памет.

"Използвайки Apache Arrow върху графичните процесори и интегрирайки се с Dask, BlazingSQL ще разшири функционалността с отворен код и ще стимулира следващата вълна на оперативна съвместимост в забързаната екосистема за наука за данни."

За тези, които се интересуват, трябва да знаят това кодът е написан на C ++ с интерфейс на python за потребители и отвореният код е под лиценза Apache 2.0.

Връзката е тази.


Оставете вашия коментар

Вашият имейл адрес няма да бъде публикуван. Задължителните полета са отбелязани с *

*

*

  1. Отговорен за данните: Мигел Анхел Гатон
  2. Предназначение на данните: Контрол на СПАМ, управление на коментари.
  3. Легитимация: Вашето съгласие
  4. Съобщаване на данните: Данните няма да бъдат съобщени на трети страни, освен по законово задължение.
  5. Съхранение на данни: База данни, хоствана от Occentus Networks (ЕС)
  6. Права: По всяко време можете да ограничите, възстановите и изтриете информацията си.