Databricks ha rilasciato il codice per Delta Lake e MLflow

Durante il vertice Data + AI Databricks svelati attraverso una pubblicità, che libererebbe l'intero framework di archiviazione di Delta Lake open source sotto la supervisione della Linux Foundation.

Vale la pena menzionarlo Delta Lake è un progetto della Linux Foundation da ottobre 2019 ed è il livello di storage aperto che offre affidabilità e prestazioni ai data lake attraverso le "architetture lake", il meglio dei data warehouse e dei data lake sotto lo stesso tetto.

Negli ultimi tre anni, Lakehouses è diventata una soluzione interessante per data engineer, analisti e data scientist che desiderano la flessibilità di eseguire carichi di lavoro diversi sugli stessi dati con una complessità minima e senza duplicazioni, dall'analisi dei dati allo sviluppo di macchine per l'apprendimento . Delta Lake è il formato di casa sul lago più utilizzato al mondo e attualmente registra oltre 7 milioni di download al mese (e in crescita).

“Fin dall'inizio, Databricks si è impegnata per gli standard aperti e la comunità open source. Abbiamo creato, contribuito, favorito la crescita e donato alcune delle innovazioni di maggior impatto nella moderna tecnologia open source", ha affermato Ali Ghods

Questo significa che Non ci saranno più differenze funzionali tra il marchio Delta Lake di Databricks e la versione open source. La società ha affermato che rilascerà allo stesso modo i suoi recenti miglioramenti alla piattaforma operativa di machine learning MLflow e al framework di analisi open source Apache Spark. Databricks ha anche implementato diverse nuove funzionalità nel suo data lake principale di Lakehouse.

“Prima di Delta Lake, tecnologie come Spark elaboravano enormi quantità di dati; Delta Lake ti consente di elaborare piccoli delta con tutte le modifiche archiviate nella cronologia in modo da poter andare avanti e indietro", ha affermato Ali Ghodsi co-fondatore di Databricks e CEO di Databricks. "Questo è importante per gli audit trail e la conformità, così puoi tornare indietro e trovare le decisioni che hai preso un anno fa".

Inoltre, va notato che la nuova versione 2.0 di Delta Lake offre prestazioni di query migliori e una fondazione basata su standard aperti. La release candidate è ora disponibile e dovrebbe entrare in una versione generale entro la fine dell'anno.

Databricks l'ha detto l'aggiornamento riflette i contributi di oltre 6400 sviluppatori e ha notato che i commit totali sono cresciuti del 95% con il numero medio di righe di codice per commit che è aumentato del 900% nell'ultimo anno.

L'azienda annuncia anche la versione 2.0 di MLflow, una piattaforma per gestire progetti di machine learning. Il lancio include Pipelines, una nuova funzionalità per velocizzare e semplificare le implementazioni del modello di machine learning. Le pipeline forniscono ai data scientist modelli predefiniti pronti per la produzione in base al tipo di modello che stanno costruendo per consentire uno sviluppo di modelli più rapido e affidabile senza richiedere l'intervento degli ingegneri di produzione.

Gli utenti possono definire gli elementi della pipeline in un file di configurazione e MLflow Pipelines gestisce automaticamente l'esecuzione, ha affermato la società. Databricks ha anche aggiunto terminali modello serverless per supportare direttamente l'hosting del modello di produzione, nonché dashboard di monitoraggio del modello integrati per aiutare i team ad analizzare le prestazioni del modello nel mondo reale.

“Il progetto Delta Lake sta vivendo un'attività fenomenale e tendenze di crescita che indicano che la comunità di sviluppatori vuole far parte del progetto. La forza dei contributori è aumentata del 60% nell'ultimo anno e la crescita dei commit totali è aumentata del 95% e la riga media di codice per commit è aumentata del 900%. Stiamo assistendo a questa velocità verso l'alto da parte di organizzazioni che contribuiscono come Uber Technologies, Walmart e CloudBees, Inc., tra le altre". —Direttore esecutivo della Linux Foundation, Jim Zemlin.

Se si interessato a saperne di più a questo proposito, puoi controllare i dettagli nel seguente link


Lascia un tuo commento

L'indirizzo email non verrà pubblicato. I campi obbligatori sono contrassegnati con *

*

*

  1. Responsabile dei dati: Miguel Ángel Gatón
  2. Scopo dei dati: controllo SPAM, gestione commenti.
  3. Legittimazione: il tuo consenso
  4. Comunicazione dei dati: I dati non saranno oggetto di comunicazione a terzi se non per obbligo di legge.
  5. Archiviazione dati: database ospitato da Occentus Networks (UE)
  6. Diritti: in qualsiasi momento puoi limitare, recuperare ed eliminare le tue informazioni.