Databricks je izdal kodo za Delta Lake in MLflow

Med srečanjem Data + AI Summit Databricks predstavljeni z oglasom, kar bi sprostilo celotno ogrodje za shranjevanje Delta Lake odprtokodno pod nadzorom fundacije Linux.

Omeniti velja to Delta Lake je od oktobra 2019 projekt Linux Foundation in je odprti sloj shranjevanja tisti, ki prinaša zanesljivost in zmogljivost podatkovnim jezerom prek »jezerskih arhitektur«, najboljših podatkovnih skladišč in podatkovnih jezer pod eno streho.

V zadnjih treh letih je Lakehouses postal privlačna rešitev za podatkovne inženirje, analitike in podatkovne znanstvenike, ki želijo fleksibilnost za izvajanje različnih delovnih obremenitev na istih podatkih z minimalno kompleksnostjo in brez podvajanja, od analitike iz podatkov do razvoja učnih strojev. . Delta Lake je najpogosteje uporabljen format jezerske hiše na svetu in trenutno beleži več kot 7 milijonov prenosov na mesec (in raste).

»Od začetka je bil Databricks zavezan odprtim standardom in odprtokodni skupnosti. Ustvarili smo, prispevali, spodbujali rast in podarili nekaj najvplivnejših inovacij v sodobni odprtokodni tehnologiji,« je dejal Ali Ghods

To pomeni Med blagovno znamko Delta Lake Databricks in odprtokodno različico ne bo več funkcionalnih razlik. Podjetje je dejalo, da bo podobno izdalo svoje nedavne izboljšave operacijske platforme za strojno učenje MLflow in odprtokodnega analitičnega okvira Apache Spark. Databricks je v svoje glavno podatkovno jezero Lakehouse uvedel tudi več novih funkcij.

»Pred Delta Lake so tehnologije, kot je Spark, obdelovale ogromne količine podatkov; Delta Lake vam omogoča obdelavo majhnih delt z vsemi spremembami, shranjenimi v zgodovini, tako da se lahko premikate naprej in nazaj,« je povedal Ali Ghodsi, soustanovitelj Databricks in izvršni direktor Databricks. "To je pomembno za revizijske sledi in skladnost, da se lahko vrnete nazaj in poiščete odločitve, ki ste jih sprejeli pred enim letom."

Poleg tega je treba opozoriti, da nova različica 2.0 Delta Lake ima boljšo zmogljivost poizvedbe in temelj, ki temelji na odprtih standardih. Kandidat za izdajo je zdaj na voljo in naj bi šel v splošno izdajo pozneje v tem letu.

Databricks je to rekel posodobitev odraža prispevke več kot 6400 razvijalcev in ugotovil, da se je skupno število potrditev povečalo za 95 %, pri čemer se je povprečno število vrstic kode na potrditev v zadnjem letu povečalo za 900 %.

podjetje napoveduje tudi različico 2.0 MLflow, platforma za upravljanje projektov strojnega učenja. Lansiranje vključuje Pipelines, novo funkcijo za pospešitev in poenostavitev uvajanja modela strojnega učenja. Cevovodi zagotavljajo podatkovnim znanstvenikom vnaprej določene predloge, pripravljene za proizvodnjo, ki temeljijo na vrsti modela, ki ga gradijo, da bi omogočili hitrejši in zanesljivejši razvoj modela brez posredovanja proizvodnih inženirjev.

Uporabniki lahko definirajo elemente cevovoda v konfiguracijski datoteki, MLflow Pipelines pa samodejno upravlja izvajanje, so sporočili iz podjetja. Databricks je dodal tudi terminale za modele brez strežnika za neposredno podporo gostovanju produkcijskega modela, kot tudi vgrajene nadzorne plošče za spremljanje modelov, ki skupinam pomagajo analizirati uspešnost modela v resničnem svetu.

»Projekt Delta Lake doživlja fenomenalno aktivnost in trende rasti, ki kažejo, da želi skupnost razvijalcev biti del projekta. Moč prispevkov se je v zadnjem letu povečala za 60 %, rast skupnih obveznosti pa se je povečala za 95 %, povprečna vrstica kode na objavo pa se je povečala za 900 %. To hitrost navzgor opažamo med drugim pri sodelujočih organizacij, kot so Uber Technologies, Walmart in CloudBees, Inc.." — Izvršni direktor fundacije Linux, Jim Zemlin.

Če ste zanima več o tem lahko preverite podrobnosti V naslednji povezavi.


Pustite svoj komentar

Vaš e-naslov ne bo objavljen. Obvezna polja so označena z *

*

*

  1. Za podatke odgovoren: Miguel Ángel Gatón
  2. Namen podatkov: Nadzor neželene pošte, upravljanje komentarjev.
  3. Legitimacija: Vaše soglasje
  4. Sporočanje podatkov: Podatki se ne bodo posredovali tretjim osebam, razen po zakonski obveznosti.
  5. Shranjevanje podatkov: Zbirka podatkov, ki jo gosti Occentus Networks (EU)
  6. Pravice: Kadar koli lahko omejite, obnovite in izbrišete svoje podatke.