Databricks je objavio kod za Delta Lake i MLflow

Tijekom Data + AI Summita Databricks predstavljen putem oglasa, što bi oslobodilo cijeli skladišni okvir Delta Lakea open source pod nadzorom Linux Foundationa.

Vrijedno je to spomenuti Delta Lake je projekt Linux Foundationa od listopada 2019 i to je otvoreni sloj za pohranu koji donosi pouzdanost i performanse podatkovnim jezerima kroz "jezerske arhitekture", najbolje od skladišta podataka i podatkovnih jezera pod jednim krovom.

Tijekom posljednje tri godine Lakehouses je postao privlačno rješenje za podatkovne inženjere, analitičare i podatkovne znanstvenike koji žele fleksibilnost pokretanja različitih radnih opterećenja na istim podacima uz minimalnu složenost i bez dupliciranja, od analitike podataka do razvoja strojeva za učenje . Delta Lake je najčešće korišteni format lake house na svijetu i trenutno ima preko 7 milijuna preuzimanja mjesečno (i raste).

“Databricks je od početka bio predan otvorenim standardima i zajednici otvorenog koda. Stvorili smo, pridonijeli, poticali rast i donirali neke od najutjecajnijih inovacija u modernoj tehnologiji otvorenog koda,” rekao je Ali Ghods

To znaci Više neće biti funkcionalnih razlika između Delta Lake marke Databricks i verzije otvorenog koda. Tvrtka je rekla da će na sličan način objaviti svoja nedavna poboljšanja operativne platforme strojnog učenja MLflow i analitičkog okvira Apache Spark otvorenog koda. Databricks je također uveo nekoliko novih značajki u svoje glavno podatkovno jezero Lakehouse.

“Prije Delta Lakea, tehnologije poput Sparka obrađivale su ogromne količine podataka; Delta Lake vam omogućuje obradu malih delta sa svim promjenama pohranjenim u povijesti tako da možete ići naprijed i natrag,” rekao je Ali Ghodsi, suosnivač Databricksa i izvršni direktor Databricksa. "Ovo je važno za revizijske tragove i usklađenost kako biste se mogli vratiti i pronaći odluke koje ste donijeli prije godinu dana."

Uz to treba napomenuti da nova verzija 2.0 Delta Lakea ima bolju izvedbu upita i temelj temeljen na otvorenim standardima. Kandidat za izdanje je sada dostupan i očekuje se da će izaći u opće izdanje kasnije ove godine.

Databricks je to rekao ažuriranje odražava doprinose više od 6400 programera i primijetio da su ukupna predanja porasla 95% s prosječnim brojem redaka koda po obvezanju koji se povećao za 900% tijekom prošle godine.

Tvrtka također najavljuje verziju 2.0 MLflowa, platforma za upravljanje projektima strojnog učenja. Lansiranje uključuje Pipelines, novu značajku za ubrzavanje i pojednostavljenje implementacije modela strojnog učenja. Cjevovodi pružaju znanstvenicima podataka unaprijed definirane predloške spremne za proizvodnju na temelju vrste modela koji grade kako bi omogućili brži i pouzdaniji razvoj modela bez potrebe za intervencijom proizvodnih inženjera.

Korisnici mogu definirati elemente cjevovoda u konfiguracijskoj datoteci, a MLflow Pipelines automatski upravlja izvršenjem, rekli su iz tvrtke. Databricks je također dodao terminale modela bez poslužitelja za izravnu podršku hostinga proizvodnog modela, kao i ugrađene nadzorne ploče za praćenje modela kako bi timovima pomogao u analizi performansi modela u stvarnom svijetu.

“Projekt Delta Lake doživljava fenomenalne aktivnosti i trendove rasta koji pokazuju da zajednica programera želi biti dio projekta. Snaga suradnika porasla je za 60% tijekom prošle godine, a rast ukupnih obveza porastao je za 95%, a prosječna linija koda po obvezama porasla je za 900%. Vidimo ovu uzlaznu brzinu od organizacija koje doprinose kao što su Uber Technologies, Walmart i CloudBees, Inc., između ostalih.” — Izvršni direktor Zaklade Linux, Jim Zemlin.

Naps zainteresirani za više informacija o tome možete provjeriti detalje U sljedećem linku.


Ostavite svoj komentar

Vaša email adresa neće biti objavljen. Obavezna polja su označena s *

*

*

  1. Za podatke odgovoran: Miguel Ángel Gatón
  2. Svrha podataka: Kontrola neželjene pošte, upravljanje komentarima.
  3. Legitimacija: Vaš pristanak
  4. Komunikacija podataka: Podaci se neće dostavljati trećim stranama, osim po zakonskoj obvezi.
  5. Pohrana podataka: Baza podataka koju hostira Occentus Networks (EU)
  6. Prava: U bilo kojem trenutku možete ograničiti, oporaviti i izbrisati svoje podatke.