Databricks zverejnil kód pre Delta Lake a MLflow

Počas samitu Data + AI Databricks odhalený prostredníctvom reklamy, čo by uvoľnilo celý skladovací rámec Delta Lake open source pod dohľadom Linux Foundation.

Za zmienku stojí to Delta Lake je projekt Linux Foundation od októbra 2019 a je to otvorená úložná vrstva, ktorá prináša spoľahlivosť a výkon do dátových jazier prostredníctvom „jazerných architektúr“, najlepších dátových skladov a dátových jazier pod jednou strechou.

Počas posledných troch rokov sa Lakehouses stal atraktívnym riešením pre dátových inžinierov, analytikov a dátových vedcov, ktorí chcú flexibilitu na spúšťanie rôznych pracovných zaťažení na rovnakých dátach s minimálnou zložitosťou a bez duplikácie, od analýzy dát až po vývoj učiacich sa strojov. . Delta Lake je najpoužívanejší formát domčekov pri jazere na svete a v súčasnosti zaznamenáva viac ako 7 miliónov stiahnutí za mesiac (a stále rastie).

„Od začiatku sa Databricks zaviazala k otvoreným štandardom a komunite open source. Vytvorili sme, prispeli, podporili rast a darovali niektoré z najúčinnejších inovácií v modernej technológii open source,“ povedal Ali Ghods.

To znamená Medzi značkou Databricks Delta Lake a verziou s otvoreným zdrojovým kódom už nebudú funkčné rozdiely. Spoločnosť uviedla, že podobne zverejní svoje nedávne vylepšenia operačného systému strojového učenia MLflow a analytického rámca Apache Spark s otvoreným zdrojovým kódom. Databricks tiež zaviedol niekoľko nových funkcií do svojho hlavného dátového jazera Lakehouse.

„Pred jazerom Delta Lake spracovávali technológie ako Spark obrovské množstvo údajov; Delta Lake vám umožňuje spracovávať malé delty so všetkými zmenami uloženými v histórii, aby ste sa mohli pohybovať tam a späť,“ povedal Ali Ghodsi spoluzakladateľ Databricks a generálny riaditeľ Databricks. "Je to dôležité pre audit trail a dodržiavanie predpisov, aby ste sa mohli vrátiť a nájsť rozhodnutia, ktoré ste urobili pred rokom."

Okrem toho treba poznamenať, že nová verzia 2.0 Delta Lake ponúka lepší výkon dotazov a základ založený na otvorených štandardoch. Kandidát na vydanie je teraz k dispozícii a očakáva sa, že sa dostane do všeobecného vydania koncom tohto roka.

Databricks to povedal aktualizácia odráža príspevky od viac ako 6400 XNUMX vývojárov a poznamenal, že celkový počet potvrdení vzrástol o 95 %, pričom priemerný počet riadkov kódu na potvrdenie sa za posledný rok zvýšil o 900 %.

Spoločnosť tiež oznamuje verziu 2.0 MLflow, platforma na riadenie projektov strojového učenia. Spustenie zahŕňa Pipelines, novú funkciu na urýchlenie a zjednodušenie nasadenia modelov strojového učenia. Pipelines poskytujú vedcom údajov preddefinované šablóny pripravené na výrobu založené na type modelu, ktorý vytvárajú, aby umožnili rýchlejší a spoľahlivejší vývoj modelu bez potreby zásahu výrobných inžinierov.

Používatelia môžu definovať prvky potrubia v konfiguračnom súbore a MLflow Pipelines riadi vykonávanie automaticky, uviedla spoločnosť. Databricks tiež pridal bezserverové modelové terminály na priamu podporu hosťovania produkčných modelov, ako aj vstavané panely monitorovania modelov, ktoré pomáhajú tímom analyzovať výkon modelu v reálnom svete.

„Projekt Delta Lake zažíva fenomenálnu aktivitu a rastové trendy, ktoré naznačujú, že developerská komunita chce byť súčasťou projektu. Sila prispievateľov sa za posledný rok zvýšila o 60 % a nárast celkového počtu odovzdaní sa zvýšil o 95 % a priemerný riadok kódu na potvrdenie sa zvýšil o 900 %. Vidíme túto vzostupnú rýchlosť od prispievajúcich organizácií, ako sú okrem iných Uber Technologies, Walmart a CloudBees, Inc. —Výkonný riaditeľ Linux Foundation, Jim Zemlin.

Ak ste záujem dozvedieť sa viac o tom môžete skontrolovať podrobnosti Na nasledujúcom odkaze.


Zanechajte svoj komentár

Vaša e-mailová adresa nebude zverejnená. Povinné položky sú označené *

*

*

  1. Zodpovedný za údaje: Miguel Ángel Gatón
  2. Účel údajov: Kontrolný SPAM, správa komentárov.
  3. Legitimácia: Váš súhlas
  4. Oznamovanie údajov: Údaje nebudú poskytnuté tretím stranám, iba ak to vyplýva zo zákona.
  5. Ukladanie dát: Databáza hostená spoločnosťou Occentus Networks (EU)
  6. Práva: Svoje údaje môžete kedykoľvek obmedziť, obnoviť a vymazať.