Databricks a lansat codul pentru Delta Lake și MLflow

În timpul Summit-ului Data + AI Databricks dezvăluite printr-o reclamă, ceea ce ar elibera întregul cadru de depozitare a Lacului Delta open source sub supravegherea Linux Foundation.

Merită menționat faptul că Delta Lake este un proiect Linux Foundation din octombrie 2019 și este stratul de stocare deschis care aduce fiabilitate și performanță lacurilor de date prin „arhitecturi de lacuri”, cele mai bune depozite de date și lacuri de date sub un singur acoperiș.

În ultimii trei ani, Lakehouses a devenit o soluție atractivă pentru inginerii de date, analiștii și oamenii de știință de date care doresc flexibilitatea de a rula sarcini de lucru diferite pe aceleași date, cu o complexitate minimă și fără duplicare, de la analiza datelor până la dezvoltarea mașinilor de învățare. . Delta Lake este cel mai folosit format de case lac din lume și în prezent vede peste 7 milioane de descărcări pe lună (și în creștere).

„De la început, Databricks s-a dedicat standardelor deschise și comunității open source. Am creat, contribuit, promovat creșterea și am donat unele dintre cele mai de impact inovații în tehnologia modernă open source”, a spus Ali Ghods.

Asta înseamnă că Nu vor mai exista diferențe funcționale între marca Delta Lake de Databricks și versiunea open source. Compania a spus că va lansa în mod similar îmbunătățirile recente ale platformei de operațiuni de învățare automată MLflow și ale cadrului de analiză open source Apache Spark. Databricks a lansat, de asemenea, câteva funcții noi pentru lacul său principal de date Lakehouse.

„Înainte de Delta Lake, tehnologii precum Spark procesau cantități uriașe de date; Delta Lake vă permite să procesați delte mici cu toate modificările stocate în istorie, astfel încât să puteți merge înainte și înapoi”, a declarat Ali Ghodsi, co-fondator al Databricks și CEO al Databricks. „Acest lucru este important pentru traseele de audit și conformitate, astfel încât să puteți reveni și să găsiți deciziile pe care le-ați luat cu un an în urmă.”

În plus, trebuie remarcat faptul că noua versiune 2.0 a Delta Lake oferă o performanță mai bună a interogărilor și o fundație bazată pe standarde deschise. Candidatul pentru lansare este acum disponibil și este de așteptat să intre într-o lansare generală în cursul acestui an.

Databricks a spus asta actualizarea reflectă contribuțiile a peste 6400 de dezvoltatori și a remarcat că totalul comiterilor a crescut cu 95%, numărul mediu de linii de cod per comitere crescând cu 900% în ultimul an.

Compania anunță, de asemenea, versiunea 2.0 a MLflow, o platformă pentru gestionarea proiectelor de învățare automată. Lansarea include Pipelines, o nouă caracteristică pentru a accelera și simplifica implementările modelelor de învățare automată. Pipelines oferă oamenilor de știință de date șabloane predefinite, pregătite pentru producție, bazate pe tipul de model pe care îl construiesc, pentru a permite dezvoltarea mai rapidă și mai fiabilă a modelului, fără a necesita intervenția inginerilor de producție.

Utilizatorii pot defini elementele conductei într-un fișier de configurare, iar MLflow Pipelines gestionează automat execuția, a spus compania. Databricks a adăugat, de asemenea, terminale model fără server pentru a sprijini direct găzduirea modelului de producție, precum și tablouri de bord de monitorizare a modelelor încorporate pentru a ajuta echipele să analizeze performanța modelului din lumea reală.

„Proiectul Delta Lake se confruntă cu o activitate fenomenală și tendințe de creștere care indică faptul că comunitatea de dezvoltatori dorește să facă parte din proiect. Puterea contribuabililor a crescut cu 60% în ultimul an, iar creșterea totală a comiterilor a crescut cu 95%, iar linia medie de cod per comitere a crescut cu 900%. Observăm această viteză ascendentă din partea organizațiilor care contribuie, precum Uber Technologies, Walmart și CloudBees, Inc., printre altele.” — Director executiv al Fundației Linux, Jim Zemlin.

Dacă ești interesat să afle mai multe despre aceasta, puteți verifica detaliile În următorul link.


Lasă comentariul tău

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *

*

*

  1. Responsabil pentru date: Miguel Ángel Gatón
  2. Scopul datelor: Control SPAM, gestionarea comentariilor.
  3. Legitimare: consimțământul dvs.
  4. Comunicarea datelor: datele nu vor fi comunicate terților decât prin obligație legală.
  5. Stocarea datelor: bază de date găzduită de Occentus Networks (UE)
  6. Drepturi: în orice moment vă puteți limita, recupera și șterge informațiile.