Yandex avaldas YTsauruse lähtekoodi

YTsaurus

YTsaurus on suurandmete hajutatud salvestus- ja töötlemisplatvorm, mis toetab MapReduce'i mudelit.

Mõni päev tagasi Yandex avalikustas ühe kaudu teatas YTsauru platvormi lähtekoodi avamine, mida kasutatakse suurte andmemahtude hajutatud salvestamiseks ja töötlemiseks, mis toetab andmetega manipuleerimist, kasutades MapReduce'i paradigmat, SQL-i päringumootorit, hajutatud failisüsteemi ja NoSQL-i salvestusruumi võtmeväärtuse vormingus.

YTsaurus kasutatud Yandexi infrastruktuuris superarvutite arvutusvõimsuse tõhusaks kasutamiseks ettevõttest Platvormi saab skaleerida enam kui 10 000 sõlmega klastriteks, mis katavad kuni miljon protsessorit ja tuhandeid GPU-sid (masinõppeülesannete jaoks).

Füüsilistes serverites töötavaid isoleeritud konteinereid saab kasutada klastriüksustena. Salvestusruum võib sisaldada eksabaite andmeid, mis asuvad erinevatel meediumitel, nagu kõvakettad, SSD-d, NVME ja RAM.

Klaster toetab sõlmede dünaamilist lisamist ja eemaldamist, koondamist (ei ühtki tõrkepunkti), automaatset replikatsiooni, aktiivseid klastri tarkvarauuendusi ja automaatset koondamise taastamist sõlme rikke korral.

Toetatakse kolme tüüpi klastreid: arvutamise klastrid (suurte andmete massiliseks paralleelseks töötlemiseks MapReduce'i toimingute abil), klastrid pivot-tabelite ja võtmeväärtuste salvestamiseks ning geograafiliselt jaotatud klastrid.

Platvormipõhine teenus võib pakkuda vahendeid andmete salvestamiseks ja töötlemiseks kümnetele tuhandetele kasutajatele. Tüüpilised YTsauruse rakendused Yandexis hõlmavad teabe salvestamist reklaamivõrgu kasutajate kohta, masinõppemudelite koolitamist, otsinguindeksi moodustamist ja andmelao loomist selliste teenuste jaoks nagu Yandex Taxi. , Food, Lavka ja tarned.

Peamistest kasutusjuhtudest mainitakse:

  • Partii töötlemine: MapReduce ja SPYT (Apache Spark kui YTsauruse andmete arvutusmootor) struktureeritud ja poolstruktureeritud andmete töötlemiseks: kirjed või finantstehingud.
  • Ad hoc analüüs: Kiired päringud CHYT (YTsauruse arvutussõlmede ClickHouse'i serverite rühm) kaudu ilma andmeid eraldi analüüsisüsteemi kopeerimata. ODBC ja JDBC koos võimalusega ühendada BI visualiseerimiseks.
  • OLTP ülesanded: Reaalajas tehingutöö võtmeväärtuste salvestusega: näiteks kasutajaprofiili salvestamine, reklaamide kuvamine või voo töötlemine.
  • Masinõpe: Hallake GPU-klastreid, et koolitada miljardite parameetritega mudeleid.
  • Meta teabe salvestamine: Metateabe tehingute salvestamine ja hajutatud lukkude usaldusväärne teenindus.
  • Andmeladude ja ETL loomine mitmetasandiliseks andmetöötluseks, kasutades tüüpilisi tööriistu: Apache Spark, SQL, MapReduce.

Arhitektuuri põhielementidest mainitakse järgmist:

  • Hajutatud failisüsteem ja Cypressi tõrketaluv puupõhine metainfosalvestus.
  • Hajutatud andmetöötluse plaanija, mis toetab MapReduce'i mudelit, aga ka täiustatud põhitoiminguid.
  • IT-toimingute horisontaalne skaleeritavus.
  • Arvutusressursside eraldamine ja võimalus eraldada teatud arvutusressursse (CPU, GPU, RAM) erinevates proportsioonides.
  • PivotTable-liigendtabelid OLTP-salvestusruumi loomiseks, MVCC-põhise salvestusruumi tugi, tehingud, andmete kustutamise võimalus pärast aegumist ja sõnumijärjekorrad andmete voogesitamiseks PivotTable-liigendtabelite kaudu.
  • API ja teegid programmeerimiskeelte C++, Python, Java, Go jaoks.
  • Kasutajatele ja administraatoritele mõeldud veebiliides, mis toetab puukujulise salvestusruumi kaudu navigeerimist.

Lõpuks kui olete huvitatud sellest rohkem teada saama, peaksite teadma, et projekti kood on kirjutatud C/C++ keeles ja see on avatud Apache 2.0 litsentsi all. Üksikasju saate kontrollida jaotises järgmine link.

El GitHubi hoidla sisaldab YTsauruse serverikoodi, k8s-i kasutatavat juurutusraamistikku, süsteemi veebiliidest ja populaarsete programmeerimiskeelte (nt C++, Java, Go ja Python) kliendi-SDK-sid. 


Jäta oma kommentaar

Sinu e-postiaadressi ei avaldata. Kohustuslikud väljad on tähistatud *

*

*

  1. Andmete eest vastutab: Miguel Ángel Gatón
  2. Andmete eesmärk: Rämpsposti kontrollimine, kommentaaride haldamine.
  3. Seadustamine: teie nõusolek
  4. Andmete edastamine: andmeid ei edastata kolmandatele isikutele, välja arvatud juriidilise kohustuse alusel.
  5. Andmete salvestamine: andmebaas, mida haldab Occentus Networks (EL)
  6. Õigused: igal ajal saate oma teavet piirata, taastada ja kustutada.