Databricks udgav koden til Delta Lake og MLflow

Under Data + AI Summit Databricks afsløret gennem en annonce, hvilket ville frigøre hele Delta Lake-opbevaringsrammen open source under opsyn af Linux Foundation.

Det er værd at nævne det Delta Lake har været et Linux Foundation-projekt siden oktober 2019 og det er det åbne lagerlag, der bringer pålidelighed og ydeevne til datasøer gennem "sø-arkitekturer", det bedste af datavarehuse og datasøer under ét tag.

I løbet af de seneste tre år er Lakehouses blevet en attraktiv løsning for dataingeniører, analytikere og dataforskere, der ønsker fleksibiliteten til at køre forskellige arbejdsmængder på de samme data med minimal kompleksitet og ingen duplikering, fra analyser fra data til udvikling af læremaskiner . Delta Lake er det mest brugte søhusformat i verden og ser i øjeblikket over 7 millioner downloads om måneden (og vokser).

“Fra begyndelsen har Databricks været forpligtet til åbne standarder og open source-fællesskabet. Vi har skabt, bidraget, fremmet vækst og doneret nogle af de mest virkningsfulde innovationer inden for moderne open source-teknologi,” sagde Ali Ghods

Det betyder det Der vil ikke længere være funktionelle forskelle mellem Delta Lake-mærket af Databricks og open source-versionen. Virksomheden sagde, at det på samme måde vil frigive sine seneste forbedringer til MLflow machine learning operations-platformen og open source Apache Spark analytics framework. Databricks har også udrullet flere nye funktioner til sin vigtigste Lakehouse-datasø.

“Før Delta Lake behandlede teknologier som Spark enorme mængder data; Delta Lake giver dig mulighed for at behandle små deltaer med alle ændringer gemt i historien, så du kan gå frem og tilbage,” sagde Ali Ghodsi, medstifter af Databricks og CEO for Databricks. "Dette er vigtigt for revisionsspor og overholdelse, så du kan gå tilbage og finde de beslutninger, du tog for et år siden."

Derudover skal det bemærkes, at ny version 2.0 af Delta Lake har bedre forespørgselsydeevne og et fundament baseret på åbne standarder. Frigivelseskandidaten er nu tilgængelig og forventes at gå i en generel udgivelse senere i år.

Databricks sagde det opdateringen afspejler bidrag fra over 6400 udviklere og bemærkede, at det samlede antal commits er vokset med 95 %, og det gennemsnitlige antal kodelinjer pr. commit er steget med 900 % i løbet af det sidste år.

Firmaet annoncerer også version 2.0 af MLflow, en platform til at styre maskinlæringsprojekter. Lanceringen inkluderer Pipelines, en ny funktion til at fremskynde og forenkle implementering af maskinlæringsmodeller. Pipelines giver datavidenskabsfolk foruddefinerede, produktionsklare skabeloner baseret på den type model, de bygger for at muliggøre hurtigere og mere pålidelig modeludvikling uden at kræve indgriben fra produktionsingeniører.

Brugere kan definere pipeline-elementerne i en konfigurationsfil, og MLflow Pipelines styrer udførelsen automatisk, sagde virksomheden. Databricks har også tilføjet serverløse modelterminaler for direkte at understøtte hosting af produktionsmodeller, samt indbyggede modelovervågnings-dashboards for at hjælpe teams med at analysere den virkelige models ydeevne.

"Delta Lake-projektet oplever fænomenal aktivitet og væksttendenser, der indikerer, at udviklersamfundet ønsker at være en del af projektet. Bidragyderstyrken er steget med 60 % i løbet af det sidste år, og væksten i det samlede antal commits er steget med 95 %, og den gennemsnitlige kodelinje pr. commit er steget med 900 %. Vi ser denne opadgående hastighed fra blandt andet bidragende organisationer som Uber Technologies, Walmart og CloudBees, Inc.." —Executive Director for Linux Foundation, Jim Zemlin.

Hvis du er interesseret i at vide mere om det, kan du kontrollere detaljerne I det følgende link.


Indholdet af artiklen overholder vores principper for redaktionel etik. Klik på for at rapportere en fejl her.

Vær den første til at kommentere

Efterlad din kommentar

Din e-mailadresse vil ikke blive offentliggjort.

*

*

  1. Ansvarlig for dataene: Miguel Ángel Gatón
  2. Formålet med dataene: Control SPAM, management af kommentarer.
  3. Legitimering: Dit samtykke
  4. Kommunikation af dataene: Dataene vil ikke blive kommunikeret til tredjemand, undtagen ved juridisk forpligtelse.
  5. Datalagring: Database hostet af Occentus Networks (EU)
  6. Rettigheder: Du kan til enhver tid begrænse, gendanne og slette dine oplysninger.