Databricks đã phát hành mã cho Delta Lake và MLflow

Trong Hội nghị thượng đỉnh về dữ liệu + AI Databricks được công bố thông qua một quảng cáo, sẽ giải phóng toàn bộ khung lưu trữ Delta Lake mã nguồn mở dưới sự giám sát của Linux Foundation.

điều đáng nói là Delta Lake là một dự án của Quỹ Linux kể từ tháng 2019 năm XNUMX và nó là lớp lưu trữ mở mang lại độ tin cậy và hiệu suất cho các hồ dữ liệu thông qua “kiến trúc hồ”, tốt nhất của các kho dữ liệu và các hồ dữ liệu dưới một mái nhà.

Trong ba năm qua, Lakehouses đã trở thành một giải pháp hấp dẫn cho các kỹ sư dữ liệu, nhà phân tích và nhà khoa học dữ liệu, những người muốn sự linh hoạt để chạy các khối lượng công việc khác nhau trên cùng một dữ liệu với độ phức tạp tối thiểu và không trùng lặp, từ phân tích dữ liệu đến phát triển máy học . Delta Lake là định dạng ngôi nhà bên hồ được sử dụng nhiều nhất trên thế giới và hiện có hơn 7 triệu lượt tải xuống mỗi tháng (và đang tăng lên).

“Ngay từ đầu, Databricks đã cam kết hướng tới các tiêu chuẩn mở và cộng đồng nguồn mở. Chúng tôi đã tạo ra, đóng góp, thúc đẩy tăng trưởng và đóng góp một số trong những đổi mới có tác động nhất trong công nghệ nguồn mở hiện đại, ”Ali Ghods nói

Điều đó có nghĩa là Sẽ không còn sự khác biệt về chức năng giữa thương hiệu Delta Lake của Databricks và phiên bản nguồn mở. Công ty cho biết họ sẽ phát hành tương tự các cải tiến gần đây cho nền tảng vận hành máy học MLflow và khung phân tích nguồn mở Apache Spark. Databricks cũng đã triển khai một số tính năng mới cho hồ dữ liệu Lakehouse chính của nó.

“Trước Delta Lake, các công nghệ như Spark đã xử lý lượng dữ liệu khổng lồ; Delta Lake cho phép bạn xử lý các đồng bằng nhỏ với tất cả các thay đổi được lưu trữ trong lịch sử để bạn có thể quay đi quay lại, ”Ali Ghodsi Đồng sáng lập Databricks và CEO của Databricks cho biết. "Điều này rất quan trọng đối với quá trình kiểm toán và tuân thủ để bạn có thể quay lại và tìm các quyết định mà bạn đã đưa ra một năm trước."

Ngoài ra, cần lưu ý rằng phiên bản mới 2.0 của Delta Lake có hiệu suất truy vấn tốt hơn và một nền tảng dựa trên các tiêu chuẩn mở. Ứng cử viên phát hành hiện đã có sẵn và dự kiến ​​sẽ được phát hành chung vào cuối năm nay.

Databricks nói rằng cập nhật phản ánh đóng góp từ hơn 6400 nhà phát triển và lưu ý rằng tổng số cam kết đã tăng 95% với số dòng mã trung bình trên mỗi cam kết tăng 900% so với năm ngoái.

Công ty cũng công bố phiên bản 2.0 của MLflow, một nền tảng để quản lý các dự án máy học. Sự ra mắt bao gồm Pipelines, một tính năng mới để tăng tốc và đơn giản hóa việc triển khai mô hình học máy. Đường ống cung cấp cho các nhà khoa học dữ liệu các mẫu sẵn sàng sản xuất, được xác định trước dựa trên loại mô hình mà họ đang xây dựng để cho phép phát triển mô hình nhanh hơn và đáng tin cậy hơn mà không cần sự can thiệp của các kỹ sư sản xuất.

Người dùng có thể xác định các phần tử đường ống trong một tệp cấu hình và MLflow Pipelines quản lý việc thực thi tự động, công ty cho biết. Databricks cũng đã thêm các thiết bị đầu cuối mô hình không máy chủ để hỗ trợ trực tiếp việc lưu trữ mô hình sản xuất, cũng như các bảng điều khiển giám sát mô hình tích hợp để giúp các nhóm phân tích hiệu suất mô hình trong thế giới thực.

“Dự án Delta Lake đang có xu hướng tăng trưởng và hoạt động phi thường cho thấy cộng đồng nhà phát triển muốn trở thành một phần của dự án. Sức mạnh của cộng tác viên đã tăng 60% so với năm ngoái và tăng trưởng trong tổng số cam kết đã tăng 95% và dòng mã trung bình trên mỗi cam kết đã tăng 900%. Chúng tôi đang nhận thấy tốc độ đi lên này từ các tổ chức đóng góp như Uber Technologies, Walmart và CloudBees, Inc., trong số những tổ chức khác. ” —Giám đốc điều hành của Quỹ Linux, Jim Zemlin.

Nếu bạn là muốn biết thêm về nó, bạn có thể kiểm tra chi tiết Trong liên kết sau đây.


Để lại bình luận của bạn

địa chỉ email của bạn sẽ không được công bố. Các trường bắt buộc được đánh dấu bằng *

*

*

  1. Chịu trách nhiệm về dữ liệu: Miguel Ángel Gatón
  2. Mục đích của dữ liệu: Kiểm soát SPAM, quản lý bình luận.
  3. Hợp pháp: Sự đồng ý của bạn
  4. Truyền thông dữ liệu: Dữ liệu sẽ không được thông báo cho các bên thứ ba trừ khi có nghĩa vụ pháp lý.
  5. Lưu trữ dữ liệu: Cơ sở dữ liệu do Occentus Networks (EU) lưu trữ
  6. Quyền: Bất cứ lúc nào bạn có thể giới hạn, khôi phục và xóa thông tin của mình.