Databricks heeft de code vrijgegeven voor Delta Lake en MLflow

Tijdens de Data + AI Summit Databricks onthuld via een advertentie, wat het hele Delta Lake-opslagraamwerk zou vrijmaken open source onder toezicht van de Linux Foundation.

Dat is het vermelden waard Delta Lake is sinds oktober 2019 een Linux Foundation-project en het is de open opslaglaag die betrouwbaarheid en prestaties naar datameren brengt door middel van "meerarchitecturen", het beste van datawarehouses en datameren onder één dak.

In de afgelopen drie jaar is Lakehouses een aantrekkelijke oplossing geworden voor data-engineers, analisten en datawetenschappers die de flexibiliteit willen om verschillende workloads op dezelfde data uit te voeren met minimale complexiteit en zonder duplicatie, van analyse van data tot de ontwikkeling van leermachines . Delta Lake is het meest gebruikte meerhuisformaat ter wereld en wordt momenteel meer dan 7 miljoen downloads per maand (en groeit).

“Vanaf het begin heeft Databricks zich gecommitteerd aan open standaarden en de open source-gemeenschap. We hebben een aantal van de meest impactvolle innovaties in moderne open source-technologie gecreëerd, bijgedragen, gestimuleerd en gedoneerd", aldus Ali Ghods.

Dat betekent dat Er zullen geen functionele verschillen meer zijn tussen het Delta Lake-merk van Databricks en de open source-versie. Het bedrijf zei dat het op dezelfde manier zijn recente verbeteringen aan het MLflow-platform voor machine learning-operaties en het open source Apache Spark-analyseraamwerk zal vrijgeven. Databricks heeft ook verschillende nieuwe functies uitgerold naar zijn belangrijkste Lakehouse-datameer.

“Vóór Delta Lake verwerkten technologieën zoals Spark enorme hoeveelheden data; Met Delta Lake kun je kleine delta's verwerken met alle wijzigingen die in de geschiedenis zijn opgeslagen, zodat je heen en weer kunt gaan', zegt Ali Ghodsi, medeoprichter van Databricks en CEO van Databricks. "Dit is belangrijk voor audit trails en compliance, zodat je terug kunt gaan en de beslissingen kunt vinden die je een jaar geleden hebt genomen."

Bovendien moet worden opgemerkt dat: nieuwe versie 2.0 van Delta Lake biedt betere queryprestaties en een fundament gebaseerd op open standaarden. De release candidate is nu beschikbaar en zal naar verwachting later dit jaar in een algemene release verschijnen.

Databricks zei dat update weerspiegelt bijdragen van meer dan 6400 ontwikkelaars en merkte op dat het totale aantal commits met 95% is gegroeid, waarbij het gemiddelde aantal regels code per commit het afgelopen jaar met 900% is gestegen.

Het bedrijf kondigt ook versie 2.0 van MLflow aan, een platform om machine learning-projecten te beheren. De lancering bevat Pipelines, een nieuwe functie om de implementatie van machine learning-modellen te versnellen en te vereenvoudigen. Pipelines bieden datawetenschappers vooraf gedefinieerde, productieklare sjablonen op basis van het type model dat ze bouwen om snellere en betrouwbaardere modelontwikkeling mogelijk te maken zonder tussenkomst van productie-ingenieurs.

Gebruikers kunnen de pijplijnelementen definiëren in een configuratiebestand en MLflow Pipelines beheert de uitvoering automatisch, aldus het bedrijf. Databricks heeft ook serverloze modelterminals toegevoegd om de hosting van productiemodellen rechtstreeks te ondersteunen, evenals ingebouwde dashboards voor modelbewaking om teams te helpen bij het analyseren van modelprestaties in de echte wereld.

“Het Delta Lake-project ervaart fenomenale activiteit en groeitrends die aangeven dat de ontwikkelaarsgemeenschap deel wil uitmaken van het project. De kracht van de bijdragers is het afgelopen jaar met 60% toegenomen en de groei van het totale aantal commits is met 95% toegenomen en de gemiddelde regel code per commit is met 900% toegenomen. We zien deze opwaartse snelheid van bijdragende organisaties zoals Uber Technologies, Walmart en CloudBees, Inc., onder anderen.” —Uitvoerend directeur van de Linux Foundation, Jim Zemlin.

Wanneer je geïnteresseerd om meer te weten hierover kunt u de details bekijken In de volgende link.


Laat je reactie achter

Uw e-mailadres wordt niet gepubliceerd. Verplichte velden zijn gemarkeerd met *

*

*

  1. Verantwoordelijk voor de gegevens: Miguel Ángel Gatón
  2. Doel van de gegevens: Controle SPAM, commentaarbeheer.
  3. Legitimatie: uw toestemming
  4. Mededeling van de gegevens: De gegevens worden niet aan derden meegedeeld, behalve op grond van wettelijke verplichting.
  5. Gegevensopslag: database gehost door Occentus Networks (EU)
  6. Rechten: u kunt uw gegevens op elk moment beperken, herstellen en verwijderen.