Inilabas ng Databricks ang code para sa Delta Lake at MLflow

Sa panahon ng Data + AI Summit Inilabas ang Databricks sa pamamagitan ng isang ad, na magpapalaya sa buong balangkas ng imbakan ng Delta Lake open source sa ilalim ng pangangasiwa ng Linux Foundation.

Ito ay nagkakahalaga ng pagbanggit na Ang Delta Lake ay isang proyekto ng Linux Foundation mula noong Oktubre 2019 at ito ang open storage layer na nagdudulot ng pagiging maaasahan at performance sa mga data lakes sa pamamagitan ng "mga arkitektura ng lawa", ang pinakamahusay sa mga data warehouse at data lakes sa ilalim ng isang bubong.

Sa nakalipas na tatlong taon, ang Lakehouses ay naging isang kaakit-akit na solusyon para sa mga data engineer, analyst, at data scientist na gustong magkaroon ng flexibility na magpatakbo ng iba't ibang workload sa parehong data na may kaunting kumplikado at walang duplikasyon, mula sa analytics mula sa data hanggang sa pagbuo ng mga learning machine. . Ang Delta Lake ay ang pinakaginagamit na lake house format sa mundo at kasalukuyang nakakakita ng mahigit 7 milyong download kada buwan (at lumalaki).

"Mula sa simula, ang Databricks ay nakatuon sa mga bukas na pamantayan at sa open source na komunidad. Kami ay lumikha, nag-ambag, nagtaguyod ng paglago at nag-donate ng ilan sa mga pinaka-maimpluwensyang inobasyon sa modernong open source na teknolohiya," sabi ni Ali Ghods

Ibig sabihin iyan Hindi na magkakaroon ng mga functional na pagkakaiba sa pagitan ng Delta Lake brand ng Databricks at ang open source na bersyon. Sinabi ng kumpanya na ilalabas din nito ang mga kamakailang pagpapahusay nito sa MLflow machine learning operations platform at open source na Apache Spark analytics framework. Ang Databricks ay naglunsad din ng ilang bagong feature sa pangunahing Lakehouse data lake nito.

"Bago ang Delta Lake, ang mga teknolohiya tulad ng Spark ay nagproseso ng malaking halaga ng data; Hinahayaan ka ng Delta Lake na iproseso ang maliliit na delta sa lahat ng mga pagbabagong nakaimbak sa kasaysayan upang maaari kang bumalik-balik," sabi ni Ali Ghodsi Co-Founder ng Databricks at CEO ng Databricks. "Ito ay mahalaga para sa mga audit trail at pagsunod para makabalik ka at mahanap ang mga desisyong ginawa mo noong isang taon."

Bilang karagdagan, dapat itong tandaan na Ang bagong bersyon 2.0 ng Delta Lake ay nagtatampok ng mas mahusay na pagganap ng query at isang pundasyon batay sa bukas na mga pamantayan. Ang kandidato sa pagpapalaya ay magagamit na ngayon at inaasahang mapupunta sa isang pangkalahatang pagpapalabas sa huling bahagi ng taong ito.

Sinabi iyon ng Databricks Sinasalamin ng update ang mga kontribusyon mula sa mahigit 6400 developer at nabanggit na ang kabuuang mga commit ay lumago ng 95% na may average na bilang ng mga linya ng code sa bawat commit na tumaas ng 900% sa nakaraang taon.

Ng kumpanya nag-aanunsyo din ng bersyon 2.0 ng MLflow, isang platform para pamahalaan ang mga proyekto ng machine learning. Ang paglulunsad kasama ang Pipelines, isang bagong feature para pabilisin at pasimplehin ang mga deployment ng modelo ng machine learning. Ang mga pipeline ay nagbibigay sa mga data scientist ng mga paunang-natukoy na, production-ready na mga template batay sa uri ng modelo na kanilang ginagawa upang paganahin ang mas mabilis at mas maaasahang pag-develop ng modelo nang hindi nangangailangan ng interbensyon mula sa mga production engineer.

Maaaring tukuyin ng mga user ang mga elemento ng pipeline sa isang configuration file at awtomatikong pinamamahalaan ng MLflow Pipelines ang pagpapatupad, sabi ng kumpanya. Nagdagdag din ang Databricks ng mga serverless model terminal para direktang suportahan ang production model hosting, gayundin ang built-in na model monitoring dashboard para matulungan ang mga team na suriin ang performance ng real-world na modelo.

"Ang proyekto ng Delta Lake ay nakakaranas ng kahanga-hangang aktibidad at mga trend ng paglago na nagpapahiwatig na ang komunidad ng developer ay gustong maging bahagi ng proyekto. Ang lakas ng kontribyutor ay tumaas ng 60% sa nakaraang taon at ang paglago sa kabuuang mga commit ay tumaas ng 95% at ang average na linya ng code sa bawat commit ay tumaas ng 900%. Nakikita namin ang pataas na bilis na ito mula sa mga nag-aambag na organisasyon tulad ng Uber Technologies, Walmart, at CloudBees, Inc., bukod sa iba pa." —Ehekutibong Direktor ng Linux Foundation, Jim Zemlin.

Kung ikaw interesadong malaman pa tungkol dito, maaari mong suriin ang mga detalye Sa sumusunod na link.


Iwanan ang iyong puna

Ang iyong email address ay hindi nai-publish. Mga kinakailangang patlang ay minarkahan ng *

*

*

  1. Responsable para sa data: Miguel Ángel Gatón
  2. Layunin ng data: Kontrolin ang SPAM, pamamahala ng komento.
  3. Legitimation: Ang iyong pahintulot
  4. Komunikasyon ng data: Ang data ay hindi maiparating sa mga third party maliban sa ligal na obligasyon.
  5. Imbakan ng data: Ang database na naka-host ng Occentus Networks (EU)
  6. Mga Karapatan: Sa anumang oras maaari mong limitahan, mabawi at tanggalin ang iyong impormasyon.