Databricks izlaida Delta Lake un MLflow kodu

Datu + AI samita laikā Datu bloki atklāti izmantojot sludinājumu, kas atbrīvotu visu Delta ezera krātuves karkasu atvērtā koda Linux fonda uzraudzībā.

Ir vērts to pieminēt Delta Lake ir Linux fonda projekts kopš 2019. gada oktobra un tieši atvērtais krātuves slānis nodrošina datu ezeriem uzticamību un veiktspēju, izmantojot “ezera arhitektūras”, labākās datu noliktavas un datu ezerus zem viena jumta.

Pēdējo trīs gadu laikā Lakehouses ir kļuvis par pievilcīgu risinājumu datu inženieriem, analītiķiem un datu zinātniekiem, kuri vēlas elastīgi darbināt dažādas darba slodzes ar vieniem un tiem pašiem datiem ar minimālu sarežģītību un bez dublēšanās, sākot no analītikas no datiem līdz mācību mašīnu izstrādei. . Delta Lake ir pasaulē visvairāk izmantotais ezera māju formāts, un pašlaik mēnesī tiek lejupielādēti vairāk nekā 7 miljoni (un pieaugošais).

“Jau no paša sākuma Databricks ir apņēmusies ievērot atvērtos standartus un atvērtā pirmkoda kopienu. Mēs esam radījuši, devuši ieguldījumu, veicinājuši izaugsmi un ziedojuši dažus no visietekmīgākajiem jauninājumiem mūsdienu atvērtā pirmkoda tehnoloģijās,” sacīja Ali Ghods.

Tas nozīmē, ka Vairs nebūs funkcionālu atšķirību starp Delta Lake zīmolu Databricks un atvērtā koda versiju. Uzņēmums paziņoja, ka līdzīgi izlaidīs savus nesenos uzlabojumus MLflow mašīnmācīšanās operāciju platformā un atvērtā koda Apache Spark analītikas sistēmā. Databricks ir arī ieviesis vairākas jaunas funkcijas savā galvenajā Lakehouse datu ezerā.

“Pirms Delta ezera tādas tehnoloģijas kā Spark apstrādāja milzīgus datu apjomus; Delta Lake ļauj apstrādāt nelielas deltas ar visām vēsturē saglabātajām izmaiņām, lai jūs varētu doties uz priekšu un atpakaļ,” sacīja Ali Ghodsi Databricks līdzdibinātājs un Databricks izpilddirektors. "Tas ir svarīgi revīzijas izsekojamības un atbilstības nodrošināšanai, lai jūs varētu atgriezties un atrast lēmumus, ko pieņēmāt pirms gada."

Turklāt jāatzīmē, ka Delta Lake jaunā versija 2.0 nodrošina labāku vaicājumu veiktspēju un uz atvērtiem standartiem balstīts fonds. Izlaiduma kandidāts tagad ir pieejams, un ir sagaidāms, ka šī gada beigās tas tiks publicēts.

Databricks to teica atjauninājums atspoguļo vairāk nekā 6400 izstrādātāju ieguldījumu un atzīmēja, ka kopējais saistību skaits ir pieaudzis par 95%, un vidējais koda rindu skaits vienā saistībā ir palielinājies par 900% pēdējā gada laikā.

Uzņēmums arī paziņo par MLflow versiju 2.0, platforma mašīnmācīšanās projektu pārvaldībai. Palaišana ietver Pipelines — jaunu līdzekli, lai paātrinātu un vienkāršotu mašīnmācīšanās modeļu izvietošanu. Cauruļvadi nodrošina datu zinātniekiem iepriekš definētas, ražošanai gatavas veidnes, kuru pamatā ir modeļa veids, ko viņi veido, lai nodrošinātu ātrāku un uzticamāku modeļa izstrādi, neprasot ražošanas inženieru iejaukšanos.

Lietotāji var definēt cauruļvada elementus konfigurācijas failā, un MLflow Pipelines automātiski pārvalda izpildi, sacīja uzņēmums. Databricks ir arī pievienojis bezserveru modeļu termināļus, lai tiešā veidā atbalstītu ražošanas modeļu mitināšanu, kā arī iebūvētus modeļu uzraudzības informācijas paneļus, lai palīdzētu komandām analizēt modeļa veiktspēju reālajā pasaulē.

“Delta ezera projekts piedzīvo fenomenālu aktivitāti un izaugsmes tendences, kas liecina, ka izstrādātāju kopiena vēlas būt daļa no projekta. Līdzautoru skaits pēdējā gada laikā ir palielinājies par 60%, un kopējais saistību pieaugums ir palielinājies par 95%, un vidējā koda rinda uz vienu saistību ir palielinājusies par 900%. Mēs redzam šo augšupejošo ātrumu no tādām ieguldījumu organizācijām kā Uber Technologies, Walmart un CloudBees, Inc., cita starpā. — Linux fonda izpilddirektors Džims Zemlins.

Ja Jums ir interesē uzzināt vairāk par to jūs varat pārbaudīt informāciju Šajā saitē.


Atstājiet savu komentāru

Jūsu e-pasta adrese netiks publicēta. Obligātie lauki ir atzīmēti ar *

*

*

  1. Atbildīgais par datiem: Migels Ángels Gatóns
  2. Datu mērķis: SPAM kontrole, komentāru pārvaldība.
  3. Legitimācija: jūsu piekrišana
  4. Datu paziņošana: Dati netiks paziņoti trešām personām, izņemot juridiskus pienākumus.
  5. Datu glabāšana: datu bāze, ko mitina Occentus Networks (ES)
  6. Tiesības: jebkurā laikā varat ierobežot, atjaunot un dzēst savu informāciju.