BlazingSQL opublikował swój kod źródłowy do wykorzystania GPUS w celu przyspieszenia przetwarzania danych

Nowy projekt open source chce przenieść analitykę na wyższy poziom i to ludzie za nim stoją BlazingSQL niedawno ogłosił, że opublikował kod źródłowy swojego silnika SQL, który jest używany w procesorach graficznych w celu przyspieszenia przetwarzania danych. BlazingSQL nie jest kompletnym DBMS, ale jest pozycjonowany jako silnik do analizy i przetwarzania dużych zbiorów danych, porównywalny w swoich zadaniach do Apache Spark.

Ci, którzy nie są zaznajomieni z BlazingSQL, powinni to wiedzieć jest to przyspieszony przez GPU silnik SQL zbudowany w ekosystemie RAPIDS który jest zestawem bibliotek oprogramowania open source do uruchamiania kompleksowych analiz i potoków nauki o danych na procesorach graficznych.

Według zespołu BlazingSQL został stworzony w celu rozwiązania problemu kosztów, złożoności i wolnego tempa, z jakim borykają się użytkownicy podczas pracy w dużych zespołach danych. BlazingSQL nadaje się do wykonywania indywidualnych zapytań analitycznych na dużych zbiorach danych (dziesiątki gigabajtów) przechowywanych w formatach tabelarycznych (np. Logi, statystyki NetFlow itp.).

Do pracy z GPU używany jest zestaw bibliotek RAPIDS abNiektóre zostały opracowane przy udziale firmy NVIDIA, umożliwiając tworzenie aplikacji do przetwarzania i analizy danych, które działają całkowicie po stronie GPU (dostępny jest interfejs Pythona do korzystania z niskopoziomowych prymitywów CUDA i obliczeń równoległych).

BlazingSQL zapewnia możliwość używania SQL zamiast API Przetwarzanie danych cuUDF (na podstawie Apache Arrow) używane przez RAPIDS. BlazingSQL to dodatkowa warstwa działająca na wierzchu cuDF i wykorzystująca bibliotekę cuIO do odczytu danych z dysku.

Zapytania SQL są przekładają się na wywołania funkcji cuUDF, które umożliwiają ładowanie danych do GPU i wykonaj na nich operacje scalania, agregacji i filtrowania. Obsługuje tworzenie rozproszonych konfiguracji obejmujących tysiące GPU.

Zastosowanie SQL umożliwia integrację RAPIDS z istniejącymi systemami analitycznymi bez pisania procesorów bez uciekania się do pośredniego ładowania danych do dodatkowego DBMS, przy zachowaniu pełnej kompatybilności ze wszystkimi częściami RAPIDS, przekładaniu istniejącej funkcjonalności na SQL i zapewnieniu wydajności na poziomie cuDF. Obejmuje obsługę integracji z bibliotekami XGBoost i cuML w celu rozwiązywania zadań związanych z analizą i uczeniem maszynowym.

Płonący SQL może uruchamiać zapytania z płaskich plików w formatach CSV i Apache Parquet zlokalizowane w systemach sieciowych i chmurowych, takich jak HDSF i AWS S3, bezpośrednio przenoszące wynik do pamięci GPU.

Dzięki równoległym operacjom na GPU i zastosowaniu szybszej pamięci wideo, wykonywanie zapytań w BlazingSQL jest do 20 razy szybsze niż w Apache Spark.

BlazingSQL znacznie upraszcza pracę z danymi - zamiast setek wywołań funkcji cuDF można to zrobić za pomocą jednego zapytania SQL.

„BlazingSQL rozwiązuje te obawy klientów nie tylko dzięki niesamowicie szybkiemu, rozproszonemu silnikowi GPU SQL, ale także gorliwemu nastawieniu na prostotę” - napisał Rodrigo Aramburu, dyrektor generalny BlazingSQL w kolejnym blogu. „Za pomocą zaledwie kilku wierszy kodu BlazingSQL może wysyłać zapytania do surowych danych, gdziekolwiek się one znajdują, i współpracować z istniejącymi RAPIDS i stosem analiz”.

BlazingSQL umożliwia użytkownikom wysyłanie zapytań do zestawów danych korporacyjnych Data Lake bezpośrednio w pamięci GPU jako GPU DataFrame (GDF). GDF to projekt, który oferuje wsparcie dla interoperacyjności między aplikacjami GPU. Definiuje również wspólną warstwę danych pamięci GPU.

„Wykorzystując Apache Arrow na GPU i integrując się z Dask, BlazingSQL rozszerzy funkcjonalność open source i napędza kolejną falę interoperacyjności w szybko zmieniającym się ekosystemie data science”.

Zainteresowani powinni to wiedzieć kod jest napisany w C ++ z interfejsem Pythona dla użytkowników a open source jest na licencji Apache 2.0.

Link jest taki.


Zostaw swój komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *

*

*

  1. Odpowiedzialny za dane: Miguel Ángel Gatón
  2. Cel danych: kontrola spamu, zarządzanie komentarzami.
  3. Legitymacja: Twoja zgoda
  4. Przekazywanie danych: Dane nie będą przekazywane stronom trzecim, z wyjątkiem obowiązku prawnego.
  5. Przechowywanie danych: baza danych hostowana przez Occentus Networks (UE)
  6. Prawa: w dowolnym momencie możesz ograniczyć, odzyskać i usunąć swoje dane.