Databricks ga ut koden for Delta Lake og MLflow

Under Data + AI Summit Databricks avduket gjennom en annonse, som ville frigjøre hele Delta Lake lagringsramme åpen kildekode under oppsyn av Linux Foundation.

Det er verdt å nevne det Delta Lake har vært et Linux Foundation-prosjekt siden oktober 2019 og det er det åpne lagringslaget som bringer pålitelighet og ytelse til datainnsjøer gjennom "lake-arkitekturer", det beste av datavarehus og datainnsjøer under ett tak.

I løpet av de siste tre årene har Lakehouses blitt en attraktiv løsning for dataingeniører, analytikere og dataforskere som ønsker fleksibiliteten til å kjøre forskjellige arbeidsmengder på samme data med minimal kompleksitet og ingen duplisering, fra analyser fra data til utvikling av læringsmaskiner . Delta Lake er det mest brukte lake house-formatet i verden og ser for tiden over 7 millioner nedlastinger per måned (og øker).

"Fra begynnelsen har Databricks vært forpliktet til åpne standarder og åpen kildekode-fellesskapet. Vi har skapt, bidratt, fremmet vekst og donert noen av de mest virkningsfulle innovasjonene innen moderne åpen kildekode-teknologi, sa Ali Ghods

Det betyr Det vil ikke lenger være funksjonelle forskjeller mellom Delta Lake-merket til Databricks og åpen kildekode-versjonen. Selskapet sa at det på samme måte vil gi ut sine nylige forbedringer til MLflow-maskinlæringsplattformen og åpen kildekode Apache Spark analytics-rammeverket. Databricks har også rullet ut flere nye funksjoner til sin viktigste Lakehouse-datainnsjø.

«Før Delta Lake behandlet teknologier som Spark enorme mengder data; Delta Lake lar deg behandle små deltaer med alle endringer lagret i historien, slik at du kan gå frem og tilbake," sa Ali Ghodsi medgründer av Databricks og administrerende direktør i Databricks. "Dette er viktig for revisjonsspor og etterlevelse, slik at du kan gå tilbake og finne avgjørelsene du tok for et år siden."

I tillegg bør det bemerkes at ny versjon 2.0 av Delta Lake har bedre søkeytelse og et fundament basert på åpne standarder. Utgivelseskandidaten er nå tilgjengelig og forventes å gå inn i en generell utgivelse senere i år.

Databricks sa det oppdateringen gjenspeiler bidrag fra over 6400 utviklere og bemerket at totalt antall forpliktelser har vokst med 95 %, og gjennomsnittlig antall kodelinjer per forpliktelse har økt med 900 % det siste året.

Selskapet kunngjør også versjon 2.0 av MLflow, en plattform for å administrere maskinlæringsprosjekter. Lanseringen inkluderer Pipelines, en ny funksjon for å øke hastigheten på og forenkle implementering av maskinlæringsmodeller. Pipelines gir dataforskere forhåndsdefinerte, produksjonsklare maler basert på typen modell de bygger for å muliggjøre raskere og mer pålitelig modellutvikling uten å kreve inngrep fra produksjonsingeniører.

Brukere kan definere pipeline-elementene i en konfigurasjonsfil og MLflow Pipelines administrerer utførelsen automatisk, sa selskapet. Databricks har også lagt til serverløse modellterminaler for direkte å støtte produksjonsmodellverting, samt innebygde modellovervåkingsdashboard for å hjelpe team med å analysere modellytelse i den virkelige verden.

"Delta Lake-prosjektet opplever fenomenal aktivitet og veksttrender som indikerer at utviklermiljøet ønsker å være en del av prosjektet. Bidragsyterstyrken har økt med 60 % det siste året og veksten i totale forpliktelser har økt med 95 % og gjennomsnittlig kodelinje per forpliktelse har økt med 900 %. Vi ser denne hastigheten oppover fra medvirkende organisasjoner som Uber Technologies, Walmart og CloudBees, Inc., blant andre." — Utøvende direktør for Linux Foundation, Jim Zemlin.

Lur interessert i å vite mer om det, kan du sjekke detaljene I den følgende lenken.


Legg igjen kommentaren

Din e-postadresse vil ikke bli publisert. Obligatoriske felt er merket med *

*

*

  1. Ansvarlig for dataene: Miguel Ángel Gatón
  2. Formålet med dataene: Kontroller SPAM, kommentaradministrasjon.
  3. Legitimering: Ditt samtykke
  4. Kommunikasjon av dataene: Dataene vil ikke bli kommunisert til tredjeparter bortsett fra ved juridisk forpliktelse.
  5. Datalagring: Database vert for Occentus Networks (EU)
  6. Rettigheter: Når som helst kan du begrense, gjenopprette og slette informasjonen din.