Databricks는 Delta Lake 및 MLflow용 코드를 출시했습니다.

Data + AI Summit 중 데이터브릭 공개 광고를 통해 전체 Delta Lake 스토리지 프레임워크를 확보할 수 있습니다. Linux Foundation의 감독하에 오픈 소스.

언급 할 가치가 있습니다. Delta Lake는 2019년 XNUMX월부터 Linux Foundation 프로젝트였습니다. 한 지붕 아래 최고의 데이터 웨어하우스 및 데이터 레이크인 "레이크 아키텍처"를 통해 데이터 레이크에 안정성과 성능을 제공하는 것은 개방형 스토리지 계층입니다.

지난 7년 동안 Lakehouses는 데이터 분석에서 학습 기계 개발에 이르기까지 최소한의 복잡성과 중복 없이 동일한 데이터에 대해 서로 다른 워크로드를 실행할 수 있는 유연성을 원하는 데이터 엔지니어, 분석가 및 데이터 과학자에게 매력적인 솔루션이 되었습니다. . Delta Lake는 세계에서 가장 많이 사용되는 레이크 하우스 형식이며 현재 매월 XNUMX백만 건 이상의 다운로드가 발생하고 있습니다.

“처음부터 Databricks는 개방형 표준과 오픈 소스 커뮤니티에 전념해 왔습니다. 우리는 현대 오픈 소스 기술에서 가장 영향력 있는 혁신을 창출하고 기여했으며 성장을 촉진했으며 기부했습니다.”라고 Ali Ghods가 말했습니다.

그 의미는 Delta Lake 브랜드의 Databricks와 오픈 소스 버전 간에 더 이상 기능적 차이가 없습니다.. 회사는 MLflow 머신 러닝 운영 플랫폼 및 오픈 소스 Apache Spark 분석 프레임워크에 대한 최근 개선 사항을 유사하게 출시할 것이라고 밝혔습니다. Databricks는 또한 주요 Lakehouse 데이터 레이크에 몇 가지 새로운 기능을 출시했습니다.

“Delta Lake 이전에는 Spark와 같은 기술이 엄청난 양의 데이터를 처리했습니다. Delta Lake를 사용하면 기록에 저장된 모든 변경 사항과 함께 작은 델타를 처리할 수 있으므로 앞뒤로 이동할 수 있습니다.” Databricks의 공동 설립자이자 Databricks의 CEO인 Ali Ghodsi가 말했습니다. "이는 감사 추적 및 규정 준수에 중요하므로 XNUMX년 전에 내린 결정을 다시 찾을 수 있습니다."

또한 다음 사항에 유의해야 합니다. 더 나은 쿼리 성능을 제공하는 Delta Lake의 새 버전 2.0 그리고 개방형 표준을 기반으로 하는 재단. 현재 릴리스 후보를 사용할 수 있으며 올해 말 일반 릴리스에 들어갈 예정입니다.

Databricks는 다음과 같이 말했습니다. 업데이트는 6400명 이상의 개발자들의 기여를 반영합니다. 총 커밋이 95% 증가했으며 커밋당 평균 코드 줄 수가 작년에 비해 900% 증가했습니다.

회사 또한 MLflow의 버전 2.0을 발표합니다. 머신 러닝 프로젝트를 관리하는 플랫폼입니다. 출시 기계 학습 모델 배포를 가속화하고 단순화하는 새로운 기능인 Pipelines 포함. 파이프라인은 생산 엔지니어의 개입 없이 더 빠르고 안정적인 모델 개발을 가능하게 하기 위해 구축 중인 모델 유형을 기반으로 사전 정의된 생산 준비 템플릿을 데이터 과학자에게 제공합니다.

사용자는 구성 파일에서 파이프라인 요소를 정의할 수 있으며 MLflow Pipelines는 실행을 자동으로 관리한다고 회사는 말했습니다. Databricks는 또한 프로덕션 모델 호스팅을 직접 지원하는 서버리스 모델 터미널과 팀이 실제 모델 성능을 분석하는 데 도움이 되는 기본 제공 모델 모니터링 대시보드를 추가했습니다.

“Delta Lake 프로젝트는 개발자 커뮤니티가 프로젝트의 일부가 되기를 원하는 경이적인 활동과 성장 추세를 경험하고 있습니다. 기여자 강점은 작년에 비해 60% 증가했으며 총 커밋 증가는 95% 증가했으며 커밋당 평균 코드 라인은 900% 증가했습니다. 우리는 Uber Technologies, Walmart, CloudBees, Inc.와 같은 기여 조직에서 이러한 상승 속도를 보고 있습니다.” —Linux Foundation의 전무이사 Jim Zemlin.

낮잠 더 알고 싶은 관심 그것에 대해, 당신은 세부 사항을 확인할 수 있습니다 다음 링크에서.


코멘트를 남겨주세요

귀하의 이메일 주소는 공개되지 않습니다. 필수 필드가 표시되어 있습니다 *

*

*

  1. 데이터 책임자 : Miguel Ángel Gatón
  2. 데이터의 목적 : 스팸 제어, 댓글 관리.
  3. 합법성 : 귀하의 동의
  4. 데이터 전달 : 법적 의무에 의한 경우를 제외하고 데이터는 제 XNUMX 자에게 전달되지 않습니다.
  5. 데이터 저장소 : Occentus Networks (EU)에서 호스팅하는 데이터베이스
  6. 권리 : 귀하는 언제든지 귀하의 정보를 제한, 복구 및 삭제할 수 있습니다.