Databricks lëshoi ​​kodin për Delta Lake dhe MLflow

Gjatë Samitit të Data + AI U zbuluan tullat e të dhënave përmes një reklame, e cila do të çlironte të gjithë kuadrin e ruajtjes së Liqenit Delta burim i hapur nën mbikëqyrjen e Fondacionit Linux.

Vlen të përmendet se Delta Lake ka qenë një projekt i Fondacionit Linux që nga tetori 2019 dhe është shtresa e hapur e ruajtjes që sjell besueshmëri dhe performancë në liqenet e të dhënave përmes "arkitekturave të liqenit", më të mirës së depove të të dhënave dhe liqeneve të të dhënave nën një çati.

Gjatë tre viteve të fundit, Lakehouses është bërë një zgjidhje tërheqëse për inxhinierët e të dhënave, analistët dhe shkencëtarët e të dhënave që duan fleksibilitetin për të ekzekutuar ngarkesa të ndryshme pune në të njëjtat të dhëna me kompleksitet minimal dhe pa dyfishim, nga analitika nga të dhënat tek zhvillimi i makinerive të të mësuarit. . Delta Lake është formati më i përdorur i shtëpisë së liqenit në botë dhe aktualisht sheh mbi 7 milionë shkarkime në muaj (dhe në rritje).

“Që nga fillimi, Databricks ka qenë e përkushtuar ndaj standardeve të hapura dhe komunitetit me kod të hapur. Ne kemi krijuar, kontribuar, nxitur rritjen dhe kemi dhuruar disa nga risitë më me ndikim në teknologjinë moderne me burim të hapur, "tha Ali Ghods.

Kjo do të thotë Nuk do të ketë më dallime funksionale midis markës Delta Lake të Databricks dhe versionit me burim të hapur. Kompania tha se në mënyrë të ngjashme do të lëshojë përmirësimet e saj të fundit në platformën e operacioneve të mësimit të makinerive MLflow dhe kornizën analitike me burim të hapur Apache Spark. Databricks ka nxjerrë gjithashtu disa veçori të reja në liqenin e tij kryesor të të dhënave Lakehouse.

“Përpara Delta Lake, teknologjitë si Spark përpunuan sasi të mëdha të dhënash; Delta Lake ju lejon të përpunoni deltat e vogla me të gjitha ndryshimet e ruajtura në histori, në mënyrë që të mund të shkoni përpara dhe me radhë, "tha Ali Ghodsi, bashkëthemelues i Databricks dhe CEO i Databricks. "Kjo është e rëndësishme për gjurmët e auditimit dhe përputhshmërinë, kështu që ju mund të ktheheni dhe të gjeni vendimet që keni marrë një vit më parë."

Përveç kësaj, duhet theksuar se versioni i ri 2.0 i Delta Lake ka performancë më të mirë të pyetjeve dhe një fondacion i bazuar në standarde të hapura. Kandidati i lëshimit është tani i disponueshëm dhe pritet të dalë në një publikim të përgjithshëm më vonë këtë vit.

Databricks tha se përditësimi pasqyron kontributet nga mbi 6400 zhvillues dhe vuri në dukje se angazhimet totale janë rritur 95% me numrin mesatar të rreshtave të kodit për kryerje duke u rritur 900% gjatë vitit të kaluar.

Kompania gjithashtu shpall versionin 2.0 të MLflow, një platformë për menaxhimin e projekteve të mësimit të makinerive. Nisja përfshin Pipelines, një veçori e re për të shpejtuar dhe thjeshtuar vendosjen e modeleve të mësimit të makinerive. Tubacionet u ofrojnë shkencëtarëve të të dhënave modele të paracaktuara, të gatshme për prodhim, bazuar në llojin e modelit që po ndërtojnë për të mundësuar zhvillimin më të shpejtë dhe më të besueshëm të modelit pa kërkuar ndërhyrje nga inxhinierët e prodhimit.

Përdoruesit mund të përcaktojnë elementët e tubacionit në një skedar konfigurimi dhe MLflow Pipelines menaxhon ekzekutimin automatikisht, tha kompania. Databricks ka shtuar gjithashtu terminale modeli pa server për të mbështetur drejtpërdrejt pritjen e modelit të prodhimit, si dhe panelet e integruara të monitorimit të modeleve për të ndihmuar ekipet të analizojnë performancën e modelit në botën reale.

“Projekti i Liqenit Delta po përjeton një aktivitet fenomenal dhe tendenca të rritjes që tregojnë se komuniteti i zhvilluesve dëshiron të jetë pjesë e projektit. Fuqia e kontribuesve është rritur me 60% gjatë vitit të kaluar dhe rritja në totalin e angazhimeve është rritur me 95% dhe rreshti mesatar i kodit për kryerje është rritur me 900%. Ne po e shohim këtë shpejtësi në rritje nga organizatat kontribuuese si Uber Technologies, Walmart dhe CloudBees, Inc., ndër të tjera.” — Drejtori Ekzekutiv i Fondacionit Linux, Jim Zemlin.

Dremitje të interesuar për të ditur më shumë në lidhje me të, ju mund të kontrolloni detajet Në lidhjen vijuese.


Lini komentin tuaj

Adresa juaj e emailit nuk do të publikohet. Fusha e kërkuar janë shënuar me *

*

*

  1. Përgjegjës për të dhënat: Miguel Ángel Gatón
  2. Qëllimi i të dhënave: Kontrolloni SPAM, menaxhimin e komenteve.
  3. Legjitimimi: Pëlqimi juaj
  4. Komunikimi i të dhënave: Të dhënat nuk do t'u komunikohen palëve të treta përveç me detyrim ligjor.
  5. Ruajtja e të dhënave: Baza e të dhënave e organizuar nga Occentus Networks (BE)
  6. Të drejtat: Në çdo kohë mund të kufizoni, rikuperoni dhe fshini informacionin tuaj.