BlazingSQL випустив свій вихідний код для використання GPUS для пришвидшення обробки даних

Новий проект з відкритим кодом хоче вивести аналітику на новий рівень, і це те, що люди позаду BlazingSQL нещодавно оголосив, що випустив вихідний код для свого движка SQL, який використовується в графічних процесорах для прискорення обробки даних. BlazingSQL не є повноцінною СУБД, але вона позиціонується як двигун для аналізу та обробки великих наборів даних, порівнянних за своїми завданнями з Apache Spark.

Тим, хто не знайомий з BlazingSQL, слід це знати це прискорений GPU движок SQL, побудований на екосистемі RAPIDS що являє собою набір бібліотек програмного забезпечення з відкритим кодом для запуску наскрізної аналітики та конвеєрів науки про дані на графічних процесорах.

За словами команди, BlazingSQL був створений для вирішення витрат, складності та повільних темпів, які відчувають користувачі при роботі у великих збірках даних. BlazingSQL підходить для виконання окремих аналітичних запитів щодо великих наборів даних (десятки гігабайт), що зберігаються у табличних форматах (наприклад, журнали, статистика NetFlow тощо).

Для роботи з графічним процесором використовується набір бібліотек RAPIDS abДеякі розроблені із залученням NVIDIA, що дозволяє створювати додатки для обробки та аналізу даних, які повністю працюють на стороні графічного процесора (для використання низькорівневих примітивів CUDA та паралельних обчислень передбачений інтерфейс Python).

BlazingSQL надає можливість використовувати SQL замість API обробка даних cuUDF (на основі Apache Arrow), що використовується RAPIDS. BlazingSQL - це додатковий шар, який працює поверх cuDF і використовує бібліотеку cuIO для зчитування даних з диска.

Запити SQL є перекласти у виклики функції cuUDF, які дозволяють завантажувати дані на графічний процесор і виконувати операції злиття, агрегування та фільтрування над ними. Підтримує створення розподілених конфігурацій, що охоплюють тисячі графічних процесорів.

Використання SQL дозволяє інтегрувати RAPIDS із існуючими аналітичними системами без процесорів запису не вдаючись до проміжного завантаження даних у додаткову СУБД, зберігаючи при цьому повну сумісність з усіма частинами RAPIDS, перекладаючи наявні функціональні можливості в SQL та забезпечуючи продуктивність на рівні cuDF. Включає підтримку інтеграції з бібліотеками XGBoost та cuML для вирішення завдань аналізу та машинного навчання.

BlazingSQL може запускати запити з плоских файлів у форматах CSV та Apache Parquet розташована в мережевих та хмарних системах, таких як HDSF та AWS S3, безпосередньо передаючи результат у пам'ять графічного процесора.

Завдяки операціям розпаралелювання графічного процесора та використанню швидшої відеопам'яті, виконання запитів у BlazingSQL до 20 разів швидше, ніж у Apache Spark.

BlazingSQL значно спрощує роботу з даними - замість сотень викликів функції cuDF ви можете зробити це за допомогою одного SQL-запиту.

"BlazingSQL вирішує ці проблеми клієнтів не тільки неймовірно швидким розподіленим процесором графічного процесора SQL, але й ревним акцентом на простоті", - написав Родріго Арамбуру, генеральний директор BlazingSQL, у наступному блозі. "За допомогою лише декількох рядків коду BlazingSQL може запитувати ваші необроблені дані, де б вони не знаходились, і взаємодіяти з вашим існуючим стеком RAPIDS та аналітики."

BlazingSQL дозволяє користувачам запитувати набори даних озера даних підприємств безпосередньо в пам'яті GPU як GPU DataFrame (GDF). GDF - це проект, який пропонує підтримку взаємодії між програмами GPU. Він також визначає загальний рівень даних пам'яті GPU.

"Завдяки використанню Apache Arrow на графічних процесорах та інтеграції з Dask, BlazingSQL розширить функціональність з відкритим кодом і забезпечить наступну хвилю взаємодії у швидкій екосистемі науки про дані".

Тим, хто цікавиться, це слід знати код написаний на C ++ з інтерфейсом python для користувачів і відкритим кодом є ліцензія Apache 2.0.

Посилання це.


Зміст статті відповідає нашим принципам редакційна етика. Щоб повідомити про помилку, натисніть тут.

Будьте першим, щоб коментувати

Залиште свій коментар

Ваша електронна адреса не буде опублікований.

*

*

  1. Відповідальний за дані: Мігель Анхель Гатон
  2. Призначення даних: Контроль спаму, управління коментарями.
  3. Легітимація: Ваша згода
  4. Передача даних: Дані не передаватимуться третім особам, за винятком юридичних зобов’язань.
  5. Зберігання даних: База даних, розміщена в мережі Occentus Networks (ЄС)
  6. Права: Ви можете будь-коли обмежити, відновити та видалити свою інформацію.

bool(true)