Databricks mengeluarkan kod untuk Delta Lake dan MLflow

Semasa Sidang Kemuncak Data + AI Databricks didedahkan melalui iklan, yang akan membebaskan keseluruhan rangka kerja simpanan Delta Lake sumber terbuka di bawah seliaan Yayasan Linux.

Perlu disebutkan bahawa Delta Lake telah menjadi projek Yayasan Linux sejak Oktober 2019 dan ia adalah lapisan storan terbuka yang membawa kebolehpercayaan dan prestasi kepada tasik data melalui "seni bina tasik", gudang data dan tasik data yang terbaik di bawah satu bumbung.

Sepanjang tiga tahun yang lalu, Lakehouses telah menjadi penyelesaian yang menarik untuk jurutera data, penganalisis dan saintis data yang mahukan fleksibiliti untuk menjalankan beban kerja yang berbeza pada data yang sama dengan kerumitan minimum dan tanpa pertindihan, daripada analitik daripada data kepada pembangunan mesin pembelajaran . Delta Lake ialah format rumah tasik yang paling banyak digunakan di dunia dan pada masa ini melihat lebih 7 juta muat turun setiap bulan (dan berkembang).

“Sejak awal, Databricks telah komited terhadap piawaian terbuka dan komuniti sumber terbuka. Kami telah mencipta, menyumbang, memupuk pertumbuhan dan menderma beberapa inovasi paling berkesan dalam teknologi sumber terbuka moden,” kata Ali Ghods

Ini bermakna itu Tidak akan ada lagi perbezaan fungsi antara jenama Databricks Delta Lake dan versi sumber terbuka. Syarikat itu berkata ia juga akan mengeluarkan peningkatan terbarunya kepada platform operasi pembelajaran mesin MLflow dan rangka kerja analitik Apache Spark sumber terbuka. Databricks juga telah melancarkan beberapa ciri baharu kepada tasik data Lakehouse utamanya.

“Sebelum Tasik Delta, teknologi seperti Spark memproses sejumlah besar data; Delta Lake membolehkan anda memproses delta kecil dengan semua perubahan yang disimpan dalam sejarah supaya anda boleh berulang-alik,” kata Ali Ghodsi Pengasas Bersama Databricks dan Ketua Pegawai Eksekutif Databricks. "Ini penting untuk jejak audit dan pematuhan supaya anda boleh kembali dan mencari keputusan yang anda buat setahun lalu."

Di samping itu, perlu diperhatikan bahawa versi baharu 2.0 Delta Lake menampilkan prestasi pertanyaan yang lebih baik dan asas berasaskan piawaian terbuka. Calon pelepas kini tersedia dan dijangka akan dikeluarkan pada akhir tahun ini.

Databricks berkata demikian kemas kini mencerminkan sumbangan daripada lebih 6400 pembangun dan menyatakan bahawa jumlah komitmen telah meningkat 95% dengan purata bilangan baris kod setiap komit meningkat 900% sepanjang tahun lepas.

syarikat turut mengumumkan versi 2.0 MLflow, platform untuk mengurus projek pembelajaran mesin. Pelancaran itu termasuk Pipelines, ciri baharu untuk mempercepatkan dan memudahkan penggunaan model pembelajaran mesin. Saluran paip menyediakan saintis data templat sedia pengeluaran yang dipratentukan berdasarkan jenis model yang mereka bina untuk membolehkan pembangunan model yang lebih pantas dan boleh dipercayai tanpa memerlukan campur tangan daripada jurutera pengeluaran.

Pengguna boleh menentukan elemen saluran paip dalam fail konfigurasi dan MLflow Pipelines menguruskan pelaksanaan secara automatik, kata syarikat itu. Databricks juga telah menambah terminal model tanpa pelayan untuk menyokong pengehosan model pengeluaran secara langsung, serta papan pemuka pemantauan model terbina dalam untuk membantu pasukan menganalisis prestasi model dunia sebenar.

“Projek Tasik Delta sedang mengalami aktiviti fenomenal dan trend pertumbuhan yang menunjukkan komuniti pemaju mahu menjadi sebahagian daripada projek itu. Kekuatan penyumbang telah meningkat sebanyak 60% sepanjang tahun lepas dan pertumbuhan dalam jumlah komitmen telah meningkat sebanyak 95% dan garis purata kod setiap komitmen telah meningkat sebanyak 900%. Kami melihat halaju menaik ini daripada organisasi yang menyumbang seperti Uber Technologies, Walmart dan CloudBees, Inc., antara lain.” —Pengarah Eksekutif Yayasan Linux, Jim Zemlin.

Jika anda berminat untuk mengetahui lebih lanjut mengenainya, anda boleh menyemak perinciannya Dalam pautan berikut.


Tinggalkan komen anda

Alamat email anda tidak akan disiarkan. Ruangan yang diperlukan ditanda dengan *

*

*

  1. Bertanggungjawab atas data: Miguel Ángel Gatón
  2. Tujuan data: Mengendalikan SPAM, pengurusan komen.
  3. Perundangan: Persetujuan anda
  4. Komunikasi data: Data tidak akan disampaikan kepada pihak ketiga kecuali dengan kewajiban hukum.
  5. Penyimpanan data: Pangkalan data yang dihoskan oleh Occentus Networks (EU)
  6. Hak: Pada bila-bila masa anda boleh menghadkan, memulihkan dan menghapus maklumat anda.