Databricks hat den Code für Delta Lake und MLflow veröffentlicht

Während des Data + AI Summit Databricks enthüllt durch eine Werbung, wodurch das gesamte Delta Lake-Speicherframework freigegeben würde Open Source unter der Aufsicht der Linux Foundation.

Es lohnt sich das zu erwähnen Delta Lake ist seit Oktober 2019 ein Projekt der Linux Foundation Und es ist die offene Speicherschicht, die durch „Lake-Architekturen“, das Beste aus Data Warehouses und Data Lakes unter einem Dach, Zuverlässigkeit und Leistung in Data Lakes bringt.

In den letzten drei Jahren hat sich Lakehouses zu einer attraktiven Lösung für Dateningenieure, Analysten und Datenwissenschaftler entwickelt, die die Flexibilität wünschen, verschiedene Workloads mit minimaler Komplexität und ohne Duplizierung auf denselben Daten auszuführen, von der Analyse von Daten bis zur Entwicklung lernender Maschinen . Delta Lake ist das meistgenutzte Lakehouse-Format der Welt und verzeichnet derzeit über 7 Millionen Downloads pro Monat (Tendenz).

„Databricks hat sich von Anfang an den offenen Standards und der Open-Source-Community verschrieben. Wir haben einige der wirkungsvollsten Innovationen der modernen Open-Source-Technologie geschaffen, dazu beigetragen, das Wachstum gefördert und gespendet“, sagte Ali Ghods.

Dies bedeutet, dass Es wird keine funktionalen Unterschiede mehr zwischen der Marke Delta Lake von Databricks und der Open-Source-Version geben. Das Unternehmen gab bekannt, dass es seine jüngsten Verbesserungen an der Handelsplattform für maschinelles Lernen MLflow und dem Analyse-Framework Apache Spark ebenfalls als Open Source veröffentlichen wird. Databricks hat außerdem mehrere neue Funktionen für seinen Hauptdatensee Lakehouse implementiert.

„Vor Delta Lake haben Technologien wie Spark riesige Datenmengen verarbeitet; Mit Delta Lake können Sie kleine Deltas mit allen im Verlauf gespeicherten Änderungen verarbeiten, sodass Sie hin und her gehen können“, sagte Ali Ghodsi, Mitbegründer von Databricks und CEO von Databricks. „Dies ist wichtig für Audit-Trails und Compliance, damit Sie zurückgehen und die Entscheidungen finden können, die Sie vor einem Jahr getroffen haben.“

Darüber hinaus ist darauf hinzuweisen Die neue Version 2.0 von Delta Lake bietet eine bessere Abfrageleistung und eine Grundlage, die auf offenen Standards basiert. Der Release Candidate ist bereits verfügbar und wird voraussichtlich noch in diesem Jahr veröffentlicht.

Databricks hat das gesagt update spiegelt Beiträge von über 6400 Entwicklern wider und stellte fest, dass die Gesamtzahl der Commits um 95 % gestiegen ist, wobei die durchschnittlichen Codezeilen pro Commit im letzten Jahr um 900 % gestiegen sind.

Das Unternehmen kündigt auch Version 2.0 von MLflow an, eine Plattform zur Verwaltung von Machine-Learning-Projekten. Der Start enthält Pipelines, eine neue Funktion zur Beschleunigung und Vereinfachung der Bereitstellung von Modellen für maschinelles Lernen. Pipelines stellen Datenwissenschaftlern vordefinierte, produktionsbereite Vorlagen zur Verfügung, die auf dem Modelltyp basieren, den sie erstellen, um eine schnellere und zuverlässigere Modellentwicklung zu ermöglichen, ohne dass Eingaben von Produktionsingenieuren erforderlich sind.

Benutzer können die Pipeline-Elemente in einer Konfigurationsdatei definieren und MLflow Pipelines verwaltet die Ausführung automatisch, so das Unternehmen. Databricks hat auch serverlose Modellterminals hinzugefügt, um das Hosting von Produktionsmodellen direkt zu unterstützen, sowie integrierte Modellüberwachungs-Dashboards, um Teams bei der Analyse der realen Modellleistung zu unterstützen.

„Das Delta Lake-Projekt erlebt phänomenale Aktivitäten und Wachstumstrends, die darauf hindeuten, dass die Entwicklergemeinschaft Teil des Projekts sein möchte. Die Stärke der Mitwirkenden hat sich im letzten Jahr um 60 % erhöht, und das Wachstum der gesamten Commits ist um 95 % gestiegen, und die durchschnittliche Codezeile pro Commit ist um 900 % gestiegen. Wir sehen diese Aufwärtsgeschwindigkeit unter anderem bei beitragenden Organisationen wie Uber Technologies, Walmart und CloudBees, Inc..“ —Exekutivdirektor der Linux Foundation, Jim Zemlin.

Wenn Sie daran interessiert, mehr zu erfahren Darüber können Sie die Details überprüfen im folgenden Link.


Hinterlasse einen Kommentar

Ihre E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind markiert mit *

*

*

  1. Verantwortlich für die Daten: Miguel Ángel Gatón
  2. Zweck der Daten: Kontrolle von SPAM, Kommentarverwaltung.
  3. Legitimation: Ihre Zustimmung
  4. Übermittlung der Daten: Die Daten werden nur durch gesetzliche Verpflichtung an Dritte weitergegeben.
  5. Datenspeicherung: Von Occentus Networks (EU) gehostete Datenbank
  6. Rechte: Sie können Ihre Informationen jederzeit einschränken, wiederherstellen und löschen.