BlazingSQL lançou seu código-fonte para o uso de GPUS para acelerar o processamento de dados

Um novo projeto de código aberto quer levar a análise para o próximo nível e é que as pessoas por trás BlazingSQL anunciou recentemente que lançou o código-fonte de seu mecanismo SQL, que é usado em GPUs para acelerar o processamento de dados. O BlazingSQL não é um DBMS completo, mas está posicionado como um mecanismo para analisar e processar grandes conjuntos de dados, comparável em suas tarefas ao Apache Spark.

Para quem não está familiarizado com o BlazingSQL deve saber que este é um motor SQL acelerado por GPU construído no ecossistema RAPIDS que é um conjunto de bibliotecas de software de código aberto para executar análises de ponta a ponta e pipelines de ciência de dados em GPUs.

De acordo com a equipe, O BlazingSQL foi criado para lidar com as despesas, complexidade e lentidão que os usuários enfrentam ao trabalhar em grandes montagens De dados. O BlazingSQL é adequado para realizar consultas analíticas individuais em grandes conjuntos de dados (dezenas de gigabytes) armazenados em formatos tabulares (por exemplo, logs, estatísticas NetFlow, etc.).

Para trabalhar com a GPU, um conjunto de bibliotecas RAPIDS é usado abAlguns desenvolvidos com o envolvimento da NVIDIA, permitindo que você crie aplicativos de processamento e análise de dados que são executados inteiramente no lado da GPU (uma interface Python é fornecida para usar primitivas CUDA de baixo nível e cálculos paralelos).

BlazingSQL fornece a capacidade de usar SQL em vez da API Processamento de dados cuUDF (baseado no Apache Arrow) usado por RAPIDS. O BlazingSQL é uma camada adicional executada no topo do cuDF e usa a biblioteca cuIO para ler os dados do disco.

Consultas SQL são traduzir em chamadas de função cuUDF, que permitem que os dados sejam carregados na GPU e realizar operações de mesclagem, agregação e filtro neles. Suporta a criação de configurações distribuídas abrangendo milhares de GPUs.

A utilização de SQL permite que RAPIDS seja integrado com sistemas analíticos existentes sem escrever processadores sem recorrer ao carregamento intermediário de dados em um SGBD adicional, mantendo total compatibilidade com todas as partes do RAPIDS, traduzindo a funcionalidade existente em SQL e garantindo o desempenho no nível de cuDF. Inclui suporte para integração com bibliotecas XGBoost e cuML para resolver tarefas de análise e aprendizado de máquina.

SQL em chamas pode executar consultas de arquivos simples nos formatos CSV e Apache Parquet localizado em rede e sistemas em nuvem como HDSF e AWS S3, transferindo diretamente o resultado para a memória GPU.

Graças às operações de paralelização na GPU e ao uso de memória de vídeo mais rápida, a execução de consultas no BlazingSQL é até 20 vezes mais rápida do que no Apache Spark.

O BlazingSQL simplifica muito o trabalho com dados - em vez de centenas de chamadas de função cuDF, você pode fazer isso com uma única consulta SQL.

“O BlazingSQL atende a essas preocupações do cliente não apenas com um mecanismo de GPU SQL incrivelmente rápido e distribuído, mas também com foco zeloso na simplicidade”, escreveu Rodrigo Aramburu, CEO da BlazingSQL, em um blog subsequente. "Com apenas algumas linhas de código, o BlazingSQL pode consultar seus dados brutos, onde quer que eles residam, e interoperar com seu RAPIDS existente e pilha analítica."

O BlazingSQL permite que os usuários consultem conjuntos de dados de data lake corporativos diretamente na memória GPU como um GPU DataFrame (GDF). GDF é um projeto que oferece suporte para interoperabilidade entre aplicativos GPU. Ele também define uma camada de dados de memória GPU comum.

"Aproveitando o Apache Arrow em GPUs e integrando-se ao Dask, o BlazingSQL estenderá a funcionalidade de código aberto e conduzirá a próxima onda de interoperabilidade no ecossistema de ciência de dados em ritmo acelerado."

Para quem está interessado deve saber que o código é escrito em C ++ com uma interface python para usuários e o código aberto está sob a licença Apache 2.0.

O link é este.


Seja o primeiro a comentar

Deixe um comentário

Seu endereço de email não será publicado. Campos obrigatórios são marcados com *

*

*

  1. Responsável pelos dados: Miguel Ángel Gatón
  2. Finalidade dos dados: Controle de SPAM, gerenciamento de comentários.
  3. Legitimação: Seu consentimento
  4. Comunicação de dados: Os dados não serão comunicados a terceiros, exceto por obrigação legal.
  5. Armazenamento de dados: banco de dados hospedado pela Occentus Networks (UE)
  6. Direitos: A qualquer momento você pode limitar, recuperar e excluir suas informações.