Databricks a publié le code pour Delta Lake et MLflow

Pendant le sommet Data + AI Les databricks dévoilés à travers une publicité, ce qui libérerait tout le cadre de stockage de Delta Lake open source sous la supervision de la Linux Foundation.

Il est important de mentionner que Delta Lake est un projet de la Linux Foundation depuis octobre 2019 et c'est la couche de stockage ouverte qui apporte fiabilité et performance aux lacs de données grâce aux «architectures de lac», le meilleur des entrepôts de données et des lacs de données sous un même toit.

Au cours des trois dernières années, Lakehouses est devenu une solution attrayante pour les ingénieurs de données, les analystes et les scientifiques des données qui souhaitent avoir la flexibilité d'exécuter différentes charges de travail sur les mêmes données avec une complexité minimale et sans duplication, de l'analyse des données au développement de machines d'apprentissage. . Delta Lake est le format de maison de lac le plus utilisé au monde et voit actuellement plus de 7 millions de téléchargements par mois (et en augmentation).

« Depuis le début, Databricks s'est engagé envers les normes ouvertes et la communauté open source. Nous avons créé, contribué, favorisé la croissance et fait don de certaines des innovations les plus percutantes de la technologie open source moderne », a déclaré Ali Ghods.

Cela signifie que Il n'y aura plus de différences fonctionnelles entre la marque Delta Lake de Databricks et la version open source. La société a annoncé qu'elle publierait de la même manière ses récentes améliorations de la plate-forme d'opérations d'apprentissage automatique MLflow et du cadre d'analyse open source Apache Spark. Databricks a également déployé plusieurs nouvelles fonctionnalités sur son lac de données principal Lakehouse.

« Avant Delta Lake, des technologies comme Spark traitaient d'énormes quantités de données ; Delta Lake vous permet de traiter de petits deltas avec toutes les modifications stockées dans l'historique afin que vous puissiez aller et venir », a déclaré Ali Ghodsi, cofondateur de Databricks et PDG de Databricks. "C'est important pour les pistes d'audit et la conformité afin que vous puissiez revenir en arrière et retrouver les décisions que vous avez prises il y a un an."

De plus, il convient de noter que la nouvelle version 2.0 de Delta Lake offre de meilleures performances de requête et une fondation basée sur des normes ouvertes. La version candidate est maintenant disponible et devrait entrer dans une version générale plus tard cette année.

Databricks a déclaré que la mise à jour reflète les contributions de plus de 6400 XNUMX développeurs et a noté que le nombre total de commits a augmenté de 95 %, le nombre moyen de lignes de code par commit ayant augmenté de 900 % au cours de la dernière année.

L'entreprise annonce également la version 2.0 de MLflow, une plate-forme pour gérer des projets d'apprentissage automatique. Le lancement inclut Pipelines, une nouvelle fonctionnalité pour accélérer et simplifier les déploiements de modèles d'apprentissage automatique. Les pipelines fournissent aux scientifiques des données des modèles prédéfinis prêts pour la production en fonction du type de modèle qu'ils construisent pour permettre un développement de modèle plus rapide et plus fiable sans nécessiter l'intervention d'ingénieurs de production.

Les utilisateurs peuvent définir les éléments du pipeline dans un fichier de configuration et MLflow Pipelines gère automatiquement l'exécution, a déclaré la société. Databricks a également ajouté des terminaux de modèles sans serveur pour prendre en charge directement l'hébergement de modèles de production, ainsi que des tableaux de bord de surveillance de modèles intégrés pour aider les équipes à analyser les performances des modèles dans le monde réel.

« Le projet Delta Lake connaît une activité phénoménale et des tendances de croissance qui indiquent que la communauté des développeurs souhaite faire partie du projet. La force des contributeurs a augmenté de 60 % au cours de l'année dernière, la croissance du nombre total de commits a augmenté de 95 % et la ligne moyenne de code par commit a augmenté de 900 %. Nous constatons cette vitesse à la hausse de la part d'organisations contributrices telles que Uber Technologies, Walmart et CloudBees, Inc., entre autres. —Directeur exécutif de la Linux Foundation, Jim Zemlin.

Si vous intéressé à en savoir plus à ce sujet, vous pouvez vérifier les détails dans le lien suivant.


Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont marqués avec *

*

*

  1. Responsable des données: Miguel Ángel Gatón
  2. Finalité des données: Contrôle du SPAM, gestion des commentaires.
  3. Légitimation: votre consentement
  4. Communication des données: Les données ne seront pas communiquées à des tiers sauf obligation légale.
  5. Stockage des données: base de données hébergée par Occentus Networks (EU)
  6. Droits: à tout moment, vous pouvez limiter, récupérer et supprimer vos informations.