Databricks släppte koden för Delta Lake och MLflow

Under Data + AI Summit Databricks presenteras genom en annons, vilket skulle frigöra hela Delta Lake-lagringsramen öppen källkod under överinseende av Linux Foundation.

Det är värt att nämna det Delta Lake har varit ett Linux Foundation-projekt sedan oktober 2019 och det är det öppna lagringslagret som ger tillförlitlighet och prestanda till datasjöar genom "sjöarkitekturer", det bästa av datalager och datasjöar under ett och samma tak.

Under de senaste tre åren har Lakehouses blivit en attraktiv lösning för dataingenjörer, analytiker och datavetare som vill ha flexibiliteten att köra olika arbetsbelastningar på samma data med minimal komplexitet och ingen duplicering, från analys från data till utveckling av inlärningsmaskiner . Delta Lake är det mest använda lake house-formatet i världen och ser för närvarande över 7 miljoner nedladdningar per månad (och växer).

"Från början har Databricks engagerat sig i öppna standarder och öppen källkod. Vi har skapat, bidragit, främjat tillväxt och donerat några av de mest effektfulla innovationerna inom modern öppen källkodsteknologi, säger Ali Ghods

Det betyder det Det kommer inte längre att finnas funktionella skillnader mellan Databricks varumärke Delta Lake och versionen med öppen källkod. Företaget sa att det på liknande sätt kommer att släppa sina senaste förbättringar av MLflow-plattformen för maskininlärning och Apache Spark-analysramverket med öppen källkod. Databricks har också rullat ut flera nya funktioner till sin huvudsakliga Lakehouse-datasjö.

"Innan Delta Lake bearbetade tekniker som Spark enorma mängder data; Delta Lake låter dig bearbeta små deltan med alla ändringar lagrade i historien så att du kan gå fram och tillbaka”, säger Ali Ghodsi, grundare av Databricks och VD för Databricks. "Detta är viktigt för revisionsspår och efterlevnad så att du kan gå tillbaka och hitta de beslut du tog för ett år sedan."

Dessutom bör det noteras att Ny version 2.0 av Delta Lake har bättre frågeprestanda och en grund baserad på öppna standarder. Releasekandidaten är nu tillgänglig och förväntas gå in i en allmän release senare i år.

Databricks sa det uppdateringen återspeglar bidrag från över 6400 XNUMX utvecklare och noterade att det totala antalet commits har ökat med 95 % och det genomsnittliga antalet kodrader per commit har ökat med 900 % under det senaste året.

företaget tillkännager också version 2.0 av MLflow, en plattform för att hantera maskininlärningsprojekt. Lanseringen inkluderar Pipelines, en ny funktion för att påskynda och förenkla implementeringar av maskininlärningsmodeller. Pipelines förser datavetare med fördefinierade, produktionsklara mallar baserade på den typ av modell de bygger för att möjliggöra snabbare och mer tillförlitlig modellutveckling utan att behöva ingripa från produktionsingenjörer.

Användare kan definiera pipeline-elementen i en konfigurationsfil och MLflow Pipelines hanterar exekveringen automatiskt, sa företaget. Databricks har också lagt till serverlösa modellterminaler för att direkt stödja produktionsmodellvärd, samt inbyggda modellövervakningsinstrumentpaneler för att hjälpa team att analysera verkliga modellprestanda.

"Delta Lake-projektet upplever fenomenal aktivitet och tillväxttrender som indikerar att utvecklargemenskapen vill vara en del av projektet. Bidragsgivarnas styrka har ökat med 60 % under det senaste året och tillväxten i totala åtaganden har ökat med 95 % och den genomsnittliga kodraden per åtagande har ökat med 900 %. Vi ser denna uppåtgående hastighet från bidragande organisationer som Uber Technologies, Walmart och CloudBees, Inc., bland andra." — Verkställande direktör för Linux Foundation, Jim Zemlin.

Om du är det intresserad av att veta mer om det kan du kontrollera detaljerna I följande länk.


Lämna din kommentar

Din e-postadress kommer inte att publiceras. Obligatoriska fält är markerade med *

*

*

  1. Ansvarig för uppgifterna: Miguel Ángel Gatón
  2. Syftet med uppgifterna: Kontrollera skräppost, kommentarhantering.
  3. Legitimering: Ditt samtycke
  4. Kommunikation av uppgifterna: Uppgifterna kommer inte att kommuniceras till tredje part förutom enligt laglig skyldighet.
  5. Datalagring: databas värd för Occentus Networks (EU)
  6. Rättigheter: När som helst kan du begränsa, återställa och radera din information.