Databricks 发布了 Delta Lake 和 MLflow 的代码

数据+人工智能峰会期间 数据块亮相 通过广告, 这将释放整个 Delta Lake 存储框架 在 Linux 基金会的监督下开源。

值得一提的是 自 2019 年 XNUMX 月以来,Delta Lake 一直是 Linux 基金会项目 它是开放存储层,通过“湖架构”为数据湖带来可靠性和性能,将最好的数据仓库和数据湖集中在一个屋檐下。

在过去三年中,Lakehouses 已成为数据工程师、分析师和数据科学家的有吸引力的解决方案,他们希望灵活地在相同数据上运行不同的工作负载,从数据分析到学习机器的开发,以最小的复杂性和无重复. Delta Lake 是世界上最常用的 Lake House 格式,目前每月下载量超过 7 万次(并且还在增长)。

“从一开始,Databricks 就一直致力于开放标准和开源社区。 我们创造、贡献、促进了增长,并捐赠了现代开源技术中一些最具影响力的创新,”Ali Ghods 说

那意味着 Databricks 的 Delta Lake 品牌与开源版本之间将不再存在功能差异. 该公司表示,它将同样发布其最近对 MLflow 机器学习操作平台和开源 Apache Spark 分析框架的增强。 Databricks 还为其主要的 Lakehouse 数据湖推出了几个新功能。

“在 Delta Lake 之前,Spark 等技术处理了大量数据; Delta Lake 允许您处理存储在历史记录中的所有更改的小增量,以便您可以来回切换,”Databricks 联合创始人兼 Databricks 首席执行官 Ali Ghodsi 说。 “这对于审计跟踪和合规性很重要,因此您可以回顾一年前做出的决定。”

此外,需要注意的是 Delta Lake 2.0 新版本具有更好的查询性能 以及基于开放标准的基础。 候选版本现已发布,预计将在今年晚些时候发布。

数据砖说 更新反映了 6400 多名开发人员的贡献 并指出,提交总数增长了 95%,每次提交的平均代码行数比去年增长了 900%。

该公司 还发布了 MLflow 2.0 版, 管理机器学习项目的平台。 发射,市场投入 包括 Pipelines,这是一项新功能,可加速和简化机器学习模型部署. 管道根据他们正在构建的模型类型为数据科学家提供预定义的生产就绪模板,以实现更快、更可靠的模型开发,而无需生产工程师的干预。

该公司表示,用户可以在配置文件中定义管道元素,MLflow Pipelines 会自动管理执行。 Databricks 还添加了无服务器模型终端以直接支持生产模型托管,以及内置模型监控仪表板以帮助团队分析真实世界的模型性能。

“Delta Lake 项目正在经历惊人的活动和增长趋势,这表明开发者社区希望成为该项目的一部分。 贡献者的力量比去年增加了 60%,提交总数增加了 95%,每次提交的平均代码行增加了 900%。 我们从 Uber Technologies、Walmart 和 CloudBees, Inc. 等贡献组织中看到了这种上升速度。” ——Linux 基金会执行董事 Jim Zemlin。

如果你是 有兴趣了解更多 关于它,你可以检查细节 在下面的链接中。


发表您的评论

您的电子邮件地址将不会被发表。 必填字段标有 *

*

*

  1. 负责数据:MiguelÁngelGatón
  2. 数据用途:控制垃圾邮件,注释管理。
  3. 合法性:您的同意
  4. 数据通讯:除非有法律义务,否则不会将数据传达给第三方。
  5. 数据存储:Occentus Networks(EU)托管的数据库
  6. 权利:您可以随时限制,恢复和删除您的信息。