Databricks lançou o código para Delta Lake e MLflow

Durante o Data + AI Summit Databricks revelados através de um anúncio, que liberaria toda a estrutura de armazenamento do Delta Lake código aberto sob a supervisão da Linux Foundation.

Cabe mencionar que Delta Lake é um projeto da Linux Foundation desde outubro de 2019 e é a camada de armazenamento aberta que traz confiabilidade e desempenho aos data lakes por meio de “arquiteturas de lagos”, o melhor dos data warehouses e data lakes sob o mesmo teto.

Nos últimos três anos, o Lakehouses se tornou uma solução atraente para engenheiros de dados, analistas e cientistas de dados que desejam flexibilidade para executar diferentes cargas de trabalho nos mesmos dados com complexidade mínima e sem duplicação, desde análises de dados até o desenvolvimento de máquinas de aprendizado . Delta Lake é o formato de casa do lago mais usado no mundo e atualmente vê mais de 7 milhões de downloads por mês (e crescendo).

“Desde o início, a Databricks está comprometida com os padrões abertos e a comunidade de código aberto. Criamos, contribuímos, promovemos o crescimento e doamos algumas das inovações mais impactantes da moderna tecnologia de código aberto”, disse Ali Ghods

Isso significa que Não haverá mais diferenças funcionais entre a marca Delta Lake de Databricks e a versão de código aberto. A empresa disse que também lançará seus recentes aprimoramentos na plataforma de operações de aprendizado de máquina MLflow e na estrutura de análise de código aberto Apache Spark. A Databricks também lançou vários novos recursos em seu principal data lake Lakehouse.

“Antes do Delta Lake, tecnologias como o Spark processavam grandes quantidades de dados; O Delta Lake permite que você processe pequenos deltas com todas as alterações armazenadas no histórico para que você possa ir e voltar”, disse Ali Ghodsi, cofundador da Databricks e CEO da Databricks. "Isso é importante para trilhas de auditoria e conformidade, para que você possa voltar e encontrar as decisões que tomou há um ano."

Além disso, deve-se notar que nova versão 2.0 do Delta Lake apresenta melhor desempenho de consulta e uma fundação baseada em padrões abertos. O release candidate já está disponível e deve entrar em um lançamento geral ainda este ano.

Databricks disse que atualização reflete contribuições de mais de 6400 desenvolvedores e observou que o total de commits cresceu 95% com o número médio de linhas de código por commit aumentando 900% no último ano.

A empresa também anuncia a versão 2.0 do MLflow, uma plataforma para gerenciar projetos de aprendizado de máquina. O lançamento inclui Pipelines, um novo recurso para acelerar e simplificar as implantações de modelos de aprendizado de máquina. Os pipelines fornecem aos cientistas de dados modelos predefinidos prontos para produção com base no tipo de modelo que estão construindo para permitir o desenvolvimento de modelos mais rápido e confiável sem exigir a intervenção de engenheiros de produção.

Os usuários podem definir os elementos do pipeline em um arquivo de configuração e o MLflow Pipelines gerencia a execução automaticamente, disse a empresa. A Databricks também adicionou terminais de modelo sem servidor para oferecer suporte direto à hospedagem do modelo de produção, bem como painéis de monitoramento de modelo integrados para ajudar as equipes a analisar o desempenho do modelo no mundo real.

“O projeto Delta Lake está passando por uma atividade fenomenal e tendências de crescimento que indicam que a comunidade de desenvolvedores quer fazer parte do projeto. A força dos contribuidores aumentou em 60% no último ano e o crescimento no total de commits aumentou em 95% e a linha média de código por commit aumentou em 900%. Estamos vendo essa velocidade ascendente de organizações contribuintes como Uber Technologies, Walmart e CloudBees, Inc., entre outras.” —Diretor Executivo da Linux Foundation, Jim Zemlin.

Se você interessado em saber mais sobre isso, você pode verificar os detalhes no link a seguir.


Seja o primeiro a comentar

Deixe um comentário

Seu endereço de email não será publicado. Campos obrigatórios são marcados com *

*

*

  1. Responsável pelos dados: Miguel Ángel Gatón
  2. Finalidade dos dados: Controle de SPAM, gerenciamento de comentários.
  3. Legitimação: Seu consentimento
  4. Comunicação de dados: Os dados não serão comunicados a terceiros, exceto por obrigação legal.
  5. Armazenamento de dados: banco de dados hospedado pela Occentus Networks (UE)
  6. Direitos: A qualquer momento você pode limitar, recuperar e excluir suas informações.