Databricks merilis kode untuk Delta Lake dan MLflow

Selama KTT Data + AI Databricks diluncurkan melalui sebuah iklan, yang akan membebaskan seluruh kerangka penyimpanan Delta Lake open source di bawah pengawasan Linux Foundation.

Perlu disebutkan itu Delta Lake telah menjadi proyek Yayasan Linux sejak Oktober 2019 dan ini adalah lapisan penyimpanan terbuka yang menghadirkan keandalan dan kinerja ke data lake melalui “arsitektur danau”, gudang data dan data lake terbaik di bawah satu atap.

Selama tiga tahun terakhir, Lakehouses telah menjadi solusi menarik bagi para insinyur data, analis, dan ilmuwan data yang menginginkan fleksibilitas untuk menjalankan beban kerja yang berbeda pada data yang sama dengan kompleksitas minimal dan tanpa duplikasi, mulai dari analitik dari data hingga pengembangan mesin pembelajaran . Delta Lake adalah format rumah danau yang paling banyak digunakan di dunia dan saat ini melihat lebih dari 7 juta unduhan per bulan (dan terus bertambah).

“Sejak awal, Databricks telah berkomitmen pada standar terbuka dan komunitas sumber terbuka. Kami telah menciptakan, berkontribusi, mendorong pertumbuhan, dan menyumbangkan beberapa inovasi paling berpengaruh dalam teknologi open source modern,” kata Ali Ghods

Itu artinya Tidak akan ada lagi perbedaan fungsional antara merek Delta Lake dari Databricks dan versi open source. Perusahaan mengatakan akan merilis peningkatan terbarunya ke platform operasi pembelajaran mesin MLflow dan kerangka kerja analitik Apache Spark open source. Databricks juga telah meluncurkan beberapa fitur baru ke danau data Lakehouse utamanya.

“Sebelum Delta Lake, teknologi seperti Spark memproses data dalam jumlah besar; Delta Lake memungkinkan Anda memproses delta kecil dengan semua perubahan yang tersimpan dalam riwayat sehingga Anda dapat bolak-balik,” kata Ali Ghodsi Co-Founder Databricks dan CEO Databricks. "Ini penting untuk jejak audit dan kepatuhan sehingga Anda dapat kembali dan menemukan keputusan yang Anda buat setahun yang lalu."

Selain itu, perlu dicatat bahwa Delta Lake versi 2.0 baru menampilkan kinerja kueri yang lebih baik dan yayasan berdasarkan standar terbuka. Kandidat rilis sekarang tersedia dan diharapkan untuk rilis umum akhir tahun ini.

Databricks mengatakan itu pembaruan mencerminkan kontribusi dari lebih dari 6400 pengembang dan mencatat bahwa total komit telah tumbuh 95% dengan jumlah rata-rata baris kode per komit meningkat 900% selama setahun terakhir.

Perusahaan juga mengumumkan MLflow versi 2.0, platform untuk mengelola proyek pembelajaran mesin. Peluncuran termasuk Pipelines, fitur baru untuk mempercepat dan menyederhanakan penerapan model pembelajaran mesin. Pipeline menyediakan para ilmuwan data dengan template siap produksi yang telah ditentukan sebelumnya berdasarkan jenis model yang mereka buat untuk memungkinkan pengembangan model yang lebih cepat dan lebih andal tanpa memerlukan intervensi dari insinyur produksi.

Pengguna dapat menentukan elemen pipa dalam file konfigurasi dan MLflow Pipelines mengelola eksekusi secara otomatis, kata perusahaan. Databricks juga telah menambahkan terminal model tanpa server untuk secara langsung mendukung hosting model produksi, serta dasbor pemantauan model bawaan untuk membantu tim menganalisis kinerja model dunia nyata.

“Proyek Delta Lake mengalami aktivitas fenomenal dan tren pertumbuhan yang mengindikasikan komunitas pengembang ingin menjadi bagian dari proyek. Kekuatan kontributor telah meningkat sebesar 60% selama setahun terakhir dan pertumbuhan total komitmen telah meningkat sebesar 95% dan baris kode rata-rata per komit telah meningkat sebesar 900%. Kami melihat peningkatan kecepatan ini dari organisasi yang berkontribusi seperti Uber Technologies, Walmart, dan CloudBees, Inc., antara lain.” —Direktur Eksekutif Yayasan Linux, Jim Zemlin.

Jika Anda tertarik untuk mengetahui lebih lanjut tentang itu, Anda dapat memeriksa detailnya Di tautan berikut.


tinggalkan Komentar Anda

Alamat email Anda tidak akan dipublikasikan. Bidang yang harus diisi ditandai dengan *

*

*

  1. Penanggung jawab data: Miguel Ángel Gatón
  2. Tujuan data: Mengontrol SPAM, manajemen komentar.
  3. Legitimasi: Persetujuan Anda
  4. Komunikasi data: Data tidak akan dikomunikasikan kepada pihak ketiga kecuali dengan kewajiban hukum.
  5. Penyimpanan data: Basis data dihosting oleh Occentus Networks (UE)
  6. Hak: Anda dapat membatasi, memulihkan, dan menghapus informasi Anda kapan saja.