Databricks allibero el codi de Delta Lake i MLflow

Durant el Data + AI Summit Databricks va donar a conèixer mitjançant un anunci, que alliberaria totalment el marc d'emmagatzematge Delta Lake en codi obert sota la supervisió de la Fundació Linux.

Cal esmentar que Delta Lake ha estat un projecte de la Fundació Linux des de l'octubre del 2019 i és la capa d'emmagatzematge oberta que ofereix confiança i rendiment als llacs de dades a través de les «arquitectures de llacs», el millor dels magatzems de dades i els llacs de dades sota un mateix sostre.

En els darrers tres anys, Lakehouses s'ha convertit en una solució atractiva per a enginyers de dades, analistes i científics de dades que volen tenir la flexibilitat d'executar diferents càrregues de treball a les mateixes dades amb una complexitat mínima i sense duplicació, des de l'anàlisi dades fins al desenvolupament de màquines d'aprenentatge. Delta Lake és el format de casa del llac més utilitzat al món i actualment veu més de 7 milions de descàrregues per mes (i continua creixent).

“Des del principi, Databricks s'ha compromès amb els estàndards oberts i la comunitat de codi obert. Hem creat, contribuït, fomentat el creixement i donat algunes de les innovacions més impactants en la tecnologia moderna de codi obert”, va dir Ali Ghods

Això vol dir que ja no hi haurà diferències funcionals entre la marca Delta Lake de Databricks i la versió de codi obert. La companyia va dir que llançarà de manera similar les millores recents a la plataforma d'operacions d'aprenentatge automàtic MLflow i el marc d'anàlisi Apache Spark per a codi obert. Databricks també va implementar diverses funcions noves per al seu llac de dades principal de Lakehouse.

“Abans de Delta Lake, tecnologies com Spark processaven grans quantitats de dades; Delta Lake li permet processar petits deltes amb tots els canvis emmagatzemats a l'historial perquè pugui retrocedir i avançar”, va dir Ali Ghodsi cofundador de Databricks i director executiu de Databricks. "Això és important per als registres d´auditoria i el compliment, de manera que pugui tornar enrere i trobar les decisions que va prendre fa un any".

A més cal ressaltar que la nova versió 2.0 de Delta Lake presenta un millor rendiment de consultes i una base basada en estàndards oberts. La versió candidata ja està disponible i s'espera que passi a una versió general a finals d'aquest any.

Databricks va dir que l'actualització reflecteix les contribucions de més de 6400 desenvolupadors i va assenyalar que les confirmacions totals han crescut un 95% amb una mitjana de línies de codi per confirmació que va augmentar un 900% durant el darrer any.

L'empresa també anuncia la versió 2.0 de MLflow, una plataforma per gestionar projectes daprenentatge automàtic. El llançament inclou Pipelines, una nova funció per accelerar i simplificar les implementacions de models daprenentatge automàtic. Les canalitzacions brinden als científics de dades plantilles predefinides i llistes per a la producció basades en el tipus de model que estan construint per permetre un desenvolupament de models més ràpid i fiable sense requerir la intervenció dels enginyers de producció.

Els usuaris poden definir els elements de la canonada en un fitxer de configuració i MLflow Pipelines administra l'execució automàticament, va dir la companyia. Databricks també ha afegit terminals de models sense servidor per admetre directament l'allotjament de models de producció, així com panells de monitorització de models integrats per ajudar els equips a analitzar el rendiment del model al món real.

“El projecte Delta Lake experimenta una activitat fenomenal i tendències de creixement que indiquen que la comunitat de desenvolupadors vol ser part del projecte. La fortalesa dels col·laboradors ha augmentat un 60 % durant l'últim any i el creixement en les confirmacions totals ha augmentat un 95 % i la línia de codi mitjana per confirmació ha augmentat un 900 %. Estem veient aquesta velocitat ascendent d'organitzacions contribuents com Uber Technologies, Walmart i CloudBees, Inc., entre d'altres”. — Director Executiu de la Fundació Linux, Jim Zemlin.

si estàs interessat a poder conèixer més a l'respecte, pots consultar els detalls en el següent enllaç.


El contingut d'l'article s'adhereix als nostres principis de ètica editorial. Per notificar un error punxa aquí.

Sigues el primer a comentar

Deixa el teu comentari

La seva adreça de correu electrònic no es publicarà. Els camps obligatoris estan marcats amb *

*

*

  1. Responsable de les dades: Miguel Ángel Gatón
  2. Finalitat de les dades: Controlar l'SPAM, gestió de comentaris.
  3. Legitimació: El teu consentiment
  4. Comunicació de les dades: No es comunicaran les dades a tercers excepte per obligació legal.
  5. Emmagatzematge de les dades: Base de dades allotjada en Occentus Networks (UE)
  6. Drets: En qualsevol moment pots limitar, recuperar i esborrar la teva informació.