Databricks випустила код для Delta Lake і MLflow

Під час саміту Data + AI Databricks оприлюднено через рекламу, що звільнить всю структуру зберігання Delta Lake з відкритим кодом під наглядом Linux Foundation.

Варто зазначити це Delta Lake є проектом Linux Foundation з жовтня 2019 року і саме відкритий рівень зберігання забезпечує надійність і продуктивність озер даних через «озерну архітектуру», найкраще зі сховищ даних і озер даних під одним дахом.

За останні три роки Lakehouses став привабливим рішенням для інженерів даних, аналітиків і дослідників даних, яким потрібна гнучкість для виконання різних робочих навантажень на тих самих даних з мінімальною складністю та без дублювання, від аналітики даних до розробки навчальних машин. . Delta Lake є найбільш використовуваним форматом lake house у світі, і наразі його завантажують понад 7 мільйонів на місяць (і зростають).

«З самого початку Databricks була віддана відкритим стандартам і спільноті з відкритим кодом. Ми створили, зробили внесок, сприяли зростанню та пожертвували деякі з найвпливовіших інновацій у сучасній технології з відкритим кодом», – сказав Алі Годс.

Це означає Більше не буде функціональних відмінностей між брендом Databricks Delta Lake і версією з відкритим кодом. Компанія заявила, що аналогічно випустить свої нещодавні вдосконалення операційної платформи машинного навчання MLflow і аналітичної системи Apache Spark з відкритим кодом. Databricks також розгорнула кілька нових функцій у своєму основному озері даних Lakehouse.

«До Delta Lake такі технології, як Spark, обробляли величезні обсяги даних; Delta Lake дозволяє обробляти невеликі дельти з усіма змінами, які зберігаються в історії, щоб ви могли повертатися туди-сюди», — сказав Алі Годсі, співзасновник Databricks і генеральний директор Databricks. «Це важливо для журналів аудиту та відповідності, щоб ви могли повернутися назад і знайти рішення, які ви ухвалили рік тому».

Крім того, слід зазначити, що нова версія 2.0 Delta Lake має кращу продуктивність запитів і основа, заснована на відкритих стандартах. Кандидат до випуску вже доступний, і очікується, що він вийде в загальний випуск пізніше цього року.

Databricks сказав це оновлення відображає внески понад 6400 розробників і зазначив, що загальна кількість комітів зросла на 95%, а середня кількість рядків коду на коміт зросла на 900% за останній рік.

Компанії також анонсує версію 2.0 MLflow, платформа для керування проектами машинного навчання. Запуск містить конвеєри, нову функцію для прискорення та спрощення розгортання моделі машинного навчання. Конвеєри надають дослідникам даних попередньо визначені готові до виробництва шаблони на основі типу моделі, яку вони створюють, щоб забезпечити швидшу та надійнішу розробку моделі без втручання інженерів-виробників.

Користувачі можуть визначати елементи конвеєра у файлі конфігурації, а MLflow Pipelines автоматично керує виконанням, повідомила компанія. Databricks також додала безсерверні модельні термінали для безпосередньої підтримки розміщення робочої моделі, а також вбудовані інформаційні панелі моніторингу моделі, щоб допомогти командам аналізувати продуктивність моделі в реальному світі.

«Проект Delta Lake переживає феноменальну активність і тенденції зростання, які вказують на бажання спільноти розробників бути частиною проекту. Потужність учасників зросла на 60% за останній рік, зростання загальної кількості комітів зросло на 95%, а середній рядок коду на коміт збільшився на 900%. Ми спостерігаємо таку швидкість зростання завдяки таким організаціям, які вносять внесок, зокрема Uber Technologies, Walmart і CloudBees, Inc.». — Виконавчий директор Linux Foundation Джим Землін.

Якщо ви є цікаво знати більше про це, ви можете перевірити деталі У наступному посиланні.


Залиште свій коментар

Ваша електронна адреса не буде опублікований. Обов'язкові для заповнення поля позначені *

*

*

  1. Відповідальний за дані: Мігель Анхель Гатон
  2. Призначення даних: Контроль спаму, управління коментарями.
  3. Легітимація: Ваша згода
  4. Передача даних: Дані не передаватимуться третім особам, за винятком юридичних зобов’язань.
  5. Зберігання даних: База даних, розміщена в мережі Occentus Networks (ЄС)
  6. Права: Ви можете будь-коли обмежити, відновити та видалити свою інформацію.