BlazingSQL은 데이터 처리 속도를 높이기 위해 GPUS 사용을위한 소스 코드를 출시했습니다.

새로운 오픈 소스 프로젝트는 분석을 다음 단계로 끌어 올리고 자합니다. BlazingSQL은 최근 SQL 엔진의 소스 코드를 공개했다고 발표했습니다. GPU에서 데이터 처리 속도를 높이는 데 사용됩니다.. BlazingSQL은 완전한 DBMS는 아니지만 Apache Spark와 비교할 수있는 대규모 데이터 세트를 분석하고 처리하는 엔진으로 자리 잡고 있습니다.

BlazingSQL에 익숙하지 않은 사람들은 이것은 RAPIDS 생태계에 구축 된 GPU 가속 SQL 엔진입니다. GPU에서 엔드 투 엔드 분석 및 데이터 과학 파이프 라인을 실행하기위한 오픈 소스 소프트웨어 라이브러리 세트입니다.

팀에 따르면 BlazingSQL은 대규모 어셈블리에서 작업 할 때 사용자가 직면하는 비용, 복잡성 및 느린 속도를 해결하기 위해 만들어졌습니다. 데이터 BlazingSQL은 테이블 형식 (예 : 로그, NetFlow 통계 등)으로 저장된 대용량 데이터 세트 (수십 기가 바이트)에 대한 개별 분석 쿼리를 수행하는 데 적합합니다.

GPU로 작업하기 위해 RAPIDS 라이브러리 세트가 사용됩니다.일부는 NVIDIA의 참여로 개발되어 전적으로 GPU 측에서 실행되는 데이터 처리 및 분석 응용 프로그램을 만들 수 있습니다 (낮은 수준의 CUDA 프리미티브 및 병렬 계산을 사용하기 위해 Python 인터페이스가 제공됨).

BlazingSQL은 API 대신 SQL을 사용할 수있는 기능을 제공합니다. RAPIDS에서 사용하는 cuUDF 데이터 처리 (Apache Arrow 기반). BlazingSQL은 cuDF 위에서 실행되고 cuIO 라이브러리를 사용하여 디스크에서 데이터를 읽는 추가 계층입니다.

SQL 쿼리는 cuUDF 함수 호출로 변환하여 GPU에 데이터를로드 할 수 있습니다. 병합, 집계 및 필터링 작업을 수행합니다. 수천 개의 GPU에 걸친 분산 구성 생성을 지원합니다.

사용 SQL을 사용하면 프로세서를 작성하지 않고도 RAPIDS를 기존 분석 시스템과 통합 할 수 있습니다. 데이터를 추가 DBMS로 중간로드하지 않고도 RAPIDS의 모든 부분과의 완전한 호환성을 유지하고 기존 기능을 SQL로 변환하며 cuDF 수준에서 성능을 보장합니다. XGBoost 및 cuML 라이브러리와의 통합을 지원하여 분석 및 기계 학습 작업을 해결합니다.

블레이징SQL CSV 및 Apache Parquet 형식의 플랫 파일에서 쿼리를 실행할 수 있습니다. HDSF 및 AWS S3와 같은 네트워크 및 클라우드 시스템에 있으며 결과를 GPU 메모리로 직접 전송합니다.

GPU에서의 병렬화 작업과 더 빠른 비디오 메모리 사용 덕분에 BlazingSQL의 쿼리 실행은 Apache Spark보다 최대 20 배 더 빠릅니다.

BlazingSQL은 데이터 작업을 크게 단순화합니다. 수백 개의 cuDF 함수 호출 대신 단일 SQL 쿼리로 수행 할 수 있습니다.

BlazingSQL의 CEO 인 Rodrigo Aramburu는 후속 블로그에서 "BlazingSQL은 믿을 수 없을 정도로 빠른 분산 SQL GPU 엔진뿐 아니라 단순성에 대한 열렬한 초점을 통해 이러한 고객 문제를 해결합니다. "BlazingSQL은 단 몇 줄의 코드만으로 원시 데이터가 어디에 있든 쿼리하고 기존 RAPIDS 및 분석 스택과 상호 운용 할 수 있습니다."

BlazingSQL을 사용하면 사용자가 GPU 데이터 프레임 (GDF)으로 GPU 메모리에서 직접 엔터프라이즈 데이터 레이크 데이터 세트를 쿼리 할 수 ​​있습니다. GDF는 GPU 애플리케이션 간의 상호 운용성을 지원하는 프로젝트입니다. 또한 공통 GPU 메모리 데이터 계층을 정의합니다.

"GPU에서 Apache Arrow를 활용하고 Dask와 통합함으로써 BlazingSQL은 오픈 소스 기능을 확장하고 빠르게 변화하는 데이터 과학 에코 시스템에서 차세대 상호 운용성을 주도 할 것입니다."

관심있는 분들은 코드는 사용자를위한 파이썬 인터페이스와 함께 C ++로 작성되었습니다. 오픈 소스는 Apache 2.0 라이선스하에 있습니다.

링크는 이쪽입니다.


코멘트를 남겨주세요

귀하의 이메일 주소는 공개되지 않습니다. 필수 필드가 표시되어 있습니다 *

*

*

  1. 데이터 책임자 : Miguel Ángel Gatón
  2. 데이터의 목적 : 스팸 제어, 댓글 관리.
  3. 합법성 : 귀하의 동의
  4. 데이터 전달 : 법적 의무에 의한 경우를 제외하고 데이터는 제 XNUMX 자에게 전달되지 않습니다.
  5. 데이터 저장소 : Occentus Networks (EU)에서 호스팅하는 데이터베이스
  6. 권리 : 귀하는 언제든지 귀하의 정보를 제한, 복구 및 삭제할 수 있습니다.