Apache Pinot, gudang data OLAP sumber terbuka

Apache Pinot

Apache Pinot adalah gudang data OLAP yang didistribusikan secara real-time

Apache Pinot Ini adalah solusi penyimpanan OLAP didistribusikan dirancang secara real-time, digunakan untuk memberikan analisis real-time yang dapat diskalakan dengan latensi rendah.

Dapat menyerap data dari sumber data batch (seperti HDFS, S3, Azure Data Lake, Google Cloud Storage), serta dari sumber streaming (seperti Kafka). Pinot dirancang untuk menskalakan secara horizontal, sehingga Anda dapat menskalakan ke kumpulan data yang lebih besar dan tingkat kueri yang lebih tinggi sesuai kebutuhan.

Tentang Apache Pinot

Proyek Pinot awalnya dikembangkan oleh LinkedIn dan pada tahun 2015 dipindahkan ke Apache Foundation untuk pengembangan bersama lebih lanjut. Penyimpanan dirancang untuk beroperasi dalam lingkungan di mana data baru terus ditambahkan dan dirancang untuk memberikan latensi minimal dan dapat diprediksi, sehingga penyimpanan dapat digunakan untuk pemrosesan kueri waktu nyata.

Seperti kebanyakan gudang data dan solusi penyimpanan data OLAP lainnya, Pinot mendukung bahasa kueri seperti SQL yang mendukung pemilihan, agregasi, pemfilteran, pengelompokan, pengurutan, dan kueri data yang berbeda.

Apache Pinot memberikan skalabilitas horizontal dan menyediakan sarana untuk mencapai toleransi kesalahan dan kemampuan bertahan terhadap kesalahan perangkat lunak dan perangkat keras. Proses replikasi dan pencadangan diintegrasikan langsung ke dalam siklus pemrosesan data yang ditambahkan ke gudang. Di satu sisi, pendekatan ini memungkinkan penyederhanaan arsitektur secara signifikan, namun di sisi lain, menyebabkan penundaan antara penambahan data dan ketersediaannya untuk kueri.

Data disimpan dalam tabel dalam database berorientasi kolom, Selain itu, beberapa skema kompresi dan kemampuan untuk menempatkan beberapa nilai dalam satu bidang didukung. Pinot menyediakan sistem indeks pluggable yang dapat menggunakan berbagai teknologi pengindeksan (indeks terurut, indeks bitmap, indeks terbalik, indeks StarTree, filter Bloom, indeks rentang, indeks pencarian teks (Lucence/FST), indeks JSON, indeks geospasial).

Ciri-ciri yang menonjol dari Apache Pinot:

  • Berorientasi Kolom– Basis data berorientasi kolom dengan berbagai skema kompresi seperti panjang proses dan panjang bit tetap.
  • Pengindeksan yang dapat dicolokkan: Teknologi pengindeksan yang dapat dicolokkan, Indeks Terurut, Indeks Bitmap, Indeks Terbalik.
  • Pengoptimalan kueri- Kemampuan untuk mengoptimalkan rencana kueri/eksekusi berdasarkan kueri dan metadata segmen.
  • Penyerapan aliran dan batch: Penyerapan aliran Hadoop dan penyerapan batch hampir secara real-time.
  • Konsultasi: Mesin eksekusi kueri berbasis SQL.
  • Upsert selama konsumsi secara real time: memperbarui data dalam skala besar dengan konsistensi
  • Beberapa bidang nilai: dukungan untuk bidang multi-nilai, memungkinkan Anda menanyakan bidang sebagai nilai yang dipisahkan koma.
  • Cloud asli di Kubernetes: Bagan helm menyediakan penerapan cluster yang dapat diskalakan secara horizontal dan toleran terhadap kesalahan yang mudah dikelola dengan Kubernetes.

Versi baru Apache Pinot

Perlu disebutkan bahwa baru-baru ini Apache Pinot versi 1.0 telah dirilis, yang pada dasarnya menyimpulkan banyak pekerjaan untuk menstabilkan basis kode dan mempertimbangkan keinginan komunitas (lebih dari 300 komentar diperhitungkan).

Selain itu, digarisbawahi bahwae mesin pemrosesan baru kueri multi-tahap (Mesin Kueri Multi-Tahap) telah mencapai potensi penuhnya, yang memungkinkan penerapan dukungan untuk menggabungkan tabel (JOIN). Mesin yang digunakan pada awalnya melakukan pekerjaan yang sangat baik dengan operasi pemfilteran dan agregasi sederhana, tetapi untuk memastikan waktu eksekusi kueri yang dapat diprediksi, mesin tersebut tidak mendukung operasi penggabungan tabel.

mesin baru mencakup tahap peralihan dari pemrosesan kueri yang kompleks dan semantik SQL yang mirip dengan ANSI SQL. Selain itu, versi baru ini menawarkan dukungan asli untuk memproses data dalam format JSON, memberikan dukungan untuk nilai "NULL", terintegrasi dengan Apache Spark 3.x dan meningkatkan implementasi tabel dalam mode Upsert (menambahkan kompresi segmen dan memberikan dukungan untuk penghapusan operasi ).

Akhirnya, jika Anda tertarik dalam kemampuan untuk mengetahui lebih banyak tentang hal itu, Anda harus tahu bahwa kode proyek ditulis dalam Java dan didistribusikan di bawah lisensi Apache. Detailnya bisa cek dari versi baru di link berikut.


tinggalkan Komentar Anda

Alamat email Anda tidak akan dipublikasikan. Bidang yang harus diisi ditandai dengan *

*

*

  1. Penanggung jawab data: Miguel Ángel Gatón
  2. Tujuan data: Mengontrol SPAM, manajemen komentar.
  3. Legitimasi: Persetujuan Anda
  4. Komunikasi data: Data tidak akan dikomunikasikan kepada pihak ketiga kecuali dengan kewajiban hukum.
  5. Penyimpanan data: Basis data dihosting oleh Occentus Networks (UE)
  6. Hak: Anda dapat membatasi, memulihkan, dan menghapus informasi Anda kapan saja.