Databricks išleido Delta Lake ir MLflow kodą

Duomenų + AI aukščiausiojo lygio susitikimo metu Duomenų blokai atidengti per reklamą, kuri atlaisvintų visą Delta Lake saugyklos karkasą atviro kodo, prižiūrint Linux Foundation.

Verta tai paminėti „Delta Lake“ yra „Linux Foundation“ projektas nuo 2019 m. spalio mėn ir tai yra atviros saugyklos sluoksnis, kuris užtikrina duomenų ežerų patikimumą ir našumą per "ežerų architektūras", geriausias duomenų saugyklas ir duomenų ežerus po vienu stogu.

Per pastaruosius trejus metus „Lakehouses“ tapo patraukliu sprendimu duomenų inžinieriams, analitikams ir duomenų mokslininkams, norintiems lanksčiai vykdyti skirtingus darbo krūvius su tais pačiais duomenimis minimaliai sudėtingai ir nesidubliuojant – nuo ​​analizės nuo duomenų iki mokymosi mašinų kūrimo. . Delta Lake yra dažniausiai naudojamas ežero namų formatas pasaulyje ir šiuo metu per mėnesį jį atsisiunčia daugiau nei 7 mln.

„Nuo pat pradžių Databricks buvo įsipareigojusi atviriems standartams ir atvirojo kodo bendruomenei. Sukūrėme, prisidėjome, skatinome augimą ir padovanojome keletą paveikiausių naujovių šiuolaikinėse atvirojo kodo technologijose“, – sakė Ali Ghods.

Tai reiškia, kad Nebebus funkcinių skirtumų tarp „Delta Lake“ prekės ženklo „Databricks“ ir atvirojo kodo versijos. Bendrovė teigė, kad panašiai išleis naujausius MLflow mašininio mokymosi operacijų platformos ir atvirojo kodo „Apache Spark“ analizės sistemos patobulinimus. Databricks taip pat įdiegė keletą naujų funkcijų savo pagrindiniame Lakehouse duomenų ežere.

„Prieš Delta Lake tokios technologijos kaip Spark apdorojo didžiulius duomenų kiekius; „Delta Lake“ leidžia apdoroti mažas deltas su visais istorijoje saugomais pakeitimais, kad galėtumėte judėti pirmyn ir atgal“, – sakė Ali Ghodsi, „Databricks“ įkūrėjas ir „Databricks“ generalinis direktorius. „Tai svarbu dėl audito sekų ir atitikties, kad galėtumėte grįžti atgal ir rasti sprendimus, kuriuos priėmėte prieš metus.

Be to, reikia pažymėti, kad Naujoji Delta Lake versija 2.0 pasižymi geresniu užklausų našumu ir atvirais standartais pagrįstas fondas. Išleidimo kandidatas dabar yra prieinamas ir tikimasi, kad jis bus išleistas vėliau šiais metais.

Databricks tai pasakė atnaujinimas atspindi daugiau nei 6400 XNUMX kūrėjų indėlį ir pažymėjo, kad bendras įsipareigojimų skaičius išaugo 95%, o vidutinis kodo eilučių skaičius vienam įsipareigojimui per pastaruosius metus padidėjo 900%.

Bendrovė taip pat skelbia MLflow 2.0 versiją, platforma mašininio mokymosi projektams valdyti. Paleidimas apima vamzdynus – naują funkciją, kuri pagreitina ir supaprastina mašininio mokymosi modelio diegimą. Vamzdynai suteikia duomenų mokslininkams iš anksto apibrėžtus, gamybai paruoštus šablonus, pagrįstus jų kuriamo modelio tipu, kad būtų galima greičiau ir patikimiau kurti modelį, nereikalaujant gamybos inžinierių įsikišimo.

Vartotojai gali apibrėžti dujotiekio elementus konfigūracijos faile, o „MLflow Pipelines“ vykdymą valdo automatiškai, pranešė bendrovė. „Databricks“ taip pat pridėjo be serverių modelių terminalus, kad tiesiogiai palaikytų gamybos modelio prieglobą, taip pat įtaisytuosius modelių stebėjimo prietaisų skydelius, kad padėtų komandoms analizuoti realaus modelio veikimą.

„Delta ežero projektas išgyvena fenomenalią veiklą ir augimo tendencijas, kurios rodo, kad kūrėjų bendruomenė nori būti projekto dalimi. Per pastaruosius metus bendraautorių skaičius išaugo 60 %, o bendras įsipareigojimų skaičius išaugo 95 %, o vidutinė vieno įsipareigojimo kodo eilutė padidėjo 900 %. Šį augimą matome iš prisidedančių organizacijų, tokių kaip Uber Technologies, Walmart ir CloudBees, Inc., be kita ko. – „Linux Foundation“ vykdomasis direktorius Jimas Zemlinas.

Kakleliai domina sužinoti daugiau apie tai galite patikrinti išsamią informaciją Šioje nuorodoje.


Palikite komentarą

Jūsų elektroninio pašto adresas nebus skelbiamas. Privalomi laukai yra pažymėti *

*

*

  1. Atsakingas už duomenis: Miguel Ángel Gatón
  2. Duomenų paskirtis: kontroliuoti šlamštą, komentarų valdymą.
  3. Įteisinimas: jūsų sutikimas
  4. Duomenų perdavimas: Duomenys nebus perduoti trečiosioms šalims, išskyrus teisinius įsipareigojimus.
  5. Duomenų saugojimas: „Occentus Networks“ (ES) talpinama duomenų bazė
  6. Teisės: bet kuriuo metu galite apriboti, atkurti ir ištrinti savo informaciją.