Apache Pinot, open source datový sklad OLAP

Apache Pinot

Apache Pinot je distribuovaný datový sklad OLAP v reálném čase

Apache Pinot Jedná se o řešení úložiště OLAP distribuované navržené v reálném čase, používané k poskytování škálovatelné analýzy v reálném čase s nízkou latencí.

Může ingestovat data z dávkových zdrojů dat (například HDFS, S3, Azure Data Lake, Google Cloud Storage) a také ze zdrojů streamování (například Kafka). Pinot je navržen tak, aby se škáloval horizontálně, takže jej můžete podle potřeby škálovat na větší sady dat a vyšší rychlost dotazů.

O Apache Pinot

Projekt Pinot byl původně vyvinut LinkedIn a v roce 2015 byl převeden do nadace Apache k dalšímu společnému rozvoji. Úložiště je navrženo tak, aby fungovalo v prostředí, kde jsou neustále přidávána nová data, a je navrženo tak, aby poskytovalo minimální a předvídatelnou latenci, což umožňuje využití úložiště pro zpracování dotazů v reálném čase.

Stejně jako většina ostatních datových skladů a řešení pro ukládání dat OLAP, Pinot podporuje dotazovací jazyk podobný SQL který podporuje výběr, agregaci, filtrování, seskupování, třídění a odlišné dotazy na data.

Apache Pinot poskytuje horizontální škálovatelnost a poskytuje prostředky k dosažení odolnosti proti chybám a odolnost proti softwarovým a hardwarovým chybám. Procesy replikace a zálohování jsou integrovány přímo do cyklu zpracování dat přidávaných do skladu. Tento přístup na jednu stranu umožňuje výrazně zjednodušit architekturu, na druhou stranu však způsobuje zpoždění mezi přidáním dat a jejich dostupností pro dotazy.

Data jsou uložena v tabulkách ve sloupcové databázi, Kromě toho je podporováno několik schémat komprese a možnost umístit více hodnot do pole. Pinot poskytuje zásuvný indexový systém, který může využívat různé technologie indexování (tříděný index, bitmapový index, invertovaný index, index StarTree, Bloomův filtr, index rozsahu, index textového vyhledávání (Lucence/FST), index JSON, geoprostorový index).

Z vlastností, které vyčnívají z Apache Pinot:

  • Orientace na sloupec– Databáze orientovaná na sloupce s různými schématy komprese, jako je délka běhu a pevná bitová délka.
  • Zásuvné indexování: Zásuvné indexovací technologie, Sorted Index, Bitmap Index, Inverted Index.
  • Optimalizace dotazu- Schopnost optimalizovat plán dotazu/provádění na základě metadat dotazů a segmentů.
  • Požití proudů a dávek: Příjem streamů Hadoop a dávkový příjem téměř v reálném čase.
  • Dotaz: Motor pro provádění dotazů založený na SQL.
  • Upsert během příjmu v reálném čase: konzistentně aktualizovat data ve velkém měřítku
  • Více polí hodnot: podpora polí s více hodnotami, což vám umožní dotazovat se na pole jako na hodnoty oddělené čárkou.
  • Cloud nativní na Kubernetes: Helm chart poskytuje horizontálně škálovatelné clusterové nasazení odolné proti chybám, které lze snadno spravovat pomocí Kubernetes.

Nová verze Apache Pinot

Stojí za zmínku, že nedávno Byla vydána verze Apache Pinot 1.0, což v podstatě shrnul spoustu práce na stabilizaci základny kódu a zohlednit přání komunity (v úvahu bylo vzato více než 300 připomínek).

Kromě toho je zdůrazněno, žee nový procesor pro zpracování vícestupňový dotaz (Multi-Stage Query Engine) dosáhl svého plného potenciálu, který umožňuje implementovat podporu pro slučování tabulek (JOIN). Použitý engine zpočátku odvedl vynikající práci s jednoduchými operacemi filtrování a agregace, ale aby se zajistila předvídatelná doba provádění dotazu, nepodporoval operace spojení tabulek.

nový motor zahrnuje mezistupně komplexního zpracování dotazů a sémantika SQL je blízká ANSI SQL. Nová verze navíc nabízí nativní podporu pro zpracování dat ve formátu JSON, poskytuje podporu pro hodnotu „NULL“, integruje se s Apache Spark 3.x a zlepšuje implementaci tabulek v režimu Upsert (přidání komprese segmentů a podpora eliminace operací ).

Konečně, pokud ano zájem v moci vědět více o tom, měli byste vědět, že kód projektu je napsán v jazyce Java a distribuován pod licencí Apache. Můžete zkontrolovat podrobnosti nové verze v následující odkaz.


Zanechte svůj komentář

Vaše e-mailová adresa nebude zveřejněna. Povinné položky jsou označeny *

*

*

  1. Odpovědný za údaje: Miguel Ángel Gatón
  2. Účel údajů: Ovládací SPAM, správa komentářů.
  3. Legitimace: Váš souhlas
  4. Sdělování údajů: Údaje nebudou sděleny třetím osobám, s výjimkou zákonných povinností.
  5. Úložiště dat: Databáze hostovaná společností Occentus Networks (EU)
  6. Práva: Vaše údaje můžete kdykoli omezit, obnovit a odstranit.