Yandex mengeluarkan kod sumber YTsaurus

YTsaurus

YTsaurus ialah platform storan dan pemprosesan yang diedarkan untuk data besar dengan sokongan untuk model MapReduce.

Beberapa hari yang lalu Yandex diumumkan melalui satu diumumkan pembukaan kod sumber platform YTsauru, yang digunakan untuk storan teragih dan pemprosesan sejumlah besar data, yang menyokong manipulasi data menggunakan paradigma MapReduce, enjin pertanyaan SQL, sistem fail teragih dan storan NoSQL dalam format nilai kunci.

YTsaurus terpakai pada infrastruktur Yandex untuk menggunakan kuasa pengkomputeran superkomputer dengan cekap syarikat itu Platform ini boleh berskala kepada kelompok lebih daripada 10 nod, meliputi sehingga satu juta pemproses dan beribu-ribu GPU (untuk tugas pembelajaran mesin).

Bekas terpencil yang berjalan pada pelayan fizikal boleh digunakan sebagai unit kluster. Storan boleh mengandungi exabait data yang terletak pada pelbagai media seperti cakera keras, SSD, NVME dan RAM.

Kluster menyokong penambahan dinamik dan pengalihan keluar nod, redundansi (tiada titik kegagalan tunggal), replikasi automatik, peningkatan perisian kluster aktif dan pemulihan redundansi automatik sekiranya berlaku kegagalan nod.

Tiga jenis kluster disokong: pengiraan gugusan (untuk pemprosesan data besar yang selari secara besar-besaran menggunakan operasi MapReduce), gugusan untuk jadual pangsi dan storan nilai kunci dan gugusan yang diedarkan secara geografi.

Perkhidmatan berasaskan platform boleh menyediakan cara untuk menyimpan dan memproses data untuk berpuluh-puluh ribu pengguna. Aplikasi YTsaurus biasa dalam Yandex termasuk menyimpan maklumat tentang pengguna rangkaian iklan, melatih model pembelajaran mesin, membentuk indeks carian dan membina gudang data untuk perkhidmatan seperti Teksi Yandex. , Makanan, Lavka dan penghantaran

Daripada kes penggunaan asas ia disebut:

  • Pemprosesan kelompok: MapReduce dan SPYT (Apache Spark sebagai enjin pengkomputeran pada data dalam YTsaurus) untuk pemprosesan data berstruktur dan separa berstruktur: rekod atau transaksi kewangan.
  • Analisis ad hoc: Pertanyaan pantas melalui CHYT (sekumpulan pelayan ClickHouse pada nod pengiraan YTsaurus) tanpa menyalin data ke sistem analitik yang berasingan. ODBC dan JDBC dengan keupayaan untuk menyambungkan BI untuk visualisasi.
  • Tugas OLTP: Kerja transaksi masa nyata dengan storan nilai kunci: contohnya, storan profil pengguna, paparan iklan atau pemprosesan strim.
  • Pembelajaran mesin: Urus kluster GPU untuk melatih model dengan berbilion parameter.
  • Penyimpanan maklumat meta: Penyimpanan transaksi metamaklumat dan perkhidmatan kunci yang diedarkan yang boleh dipercayai.
  • Penciptaan gudang data dan ETL untuk pemprosesan data berbilang peringkat menggunakan alat biasa: Apache Spark, SQL, MapReduce.

Manakala di bahagian elemen utama seni bina, perkara berikut disebut:

  • Sistem fail yang diedarkan dan storan metamaklumat berasaskan pokok tahan kesalahan Cypress.
  • Penjadual untuk pengkomputeran teragih dengan sokongan untuk model MapReduce, serta operasi asas lanjutan.
  • Skala mendatar operasi IT.
  • Pengasingan sumber pengkomputeran dan kemungkinan untuk memperuntukkan sumber pengkomputeran tertentu (CPU, GPU, RAM) dalam perkadaran yang berbeza.
  • Jadual Pangsi untuk mencipta storan OLTP, sokongan untuk storan berasaskan MVCC, urus niaga, keupayaan untuk memadam data selepas tamat tempoh, dan baris gilir mesej untuk menstrim pemprosesan data melalui Jadual Pangsi.
  • API dan perpustakaan untuk bahasa pengaturcaraan C++, Python, Java, Go.
  • Antara muka web untuk pengguna dan pentadbir yang menyokong navigasi melalui storan seperti pokok.

Akhirnya sekiranya anda berminat untuk mengetahui lebih lanjut mengenainya, anda harus tahu bahawa kod projek ditulis dalam C/C++ dan dibuka di bawah lesen Apache 2.0. Anda boleh menyemak butiran dalam pautan berikut.

El Repositori GitHub mengandungi kod pelayan untuk YTsaurus, rangka kerja penggunaan yang digunakan oleh k8s, antara muka web kepada sistem dan SDK klien untuk bahasa pengaturcaraan popular seperti C++, Java, Go dan Python. 


Tinggalkan komen anda

Alamat email anda tidak akan disiarkan. Ruangan yang diperlukan ditanda dengan *

*

*

  1. Bertanggungjawab atas data: Miguel Ángel Gatón
  2. Tujuan data: Mengendalikan SPAM, pengurusan komen.
  3. Perundangan: Persetujuan anda
  4. Komunikasi data: Data tidak akan disampaikan kepada pihak ketiga kecuali dengan kewajiban hukum.
  5. Penyimpanan data: Pangkalan data yang dihoskan oleh Occentus Networks (EU)
  6. Hak: Pada bila-bila masa anda boleh menghadkan, memulihkan dan menghapus maklumat anda.