Yandex izlaida YTsaurus pirmkodu

YTsaurus

YTsaurus ir izplatīta lielu datu uzglabāšanas un apstrādes platforma ar MapReduce modeļa atbalstu.

Pirms dažām dienām Yandex atklāja caur vienu paziņoja YTsauru platformas pirmkoda atvēršana, kas tiek izmantots liela datu apjoma sadalītai glabāšanai un apstrādei, kas atbalsta datu manipulācijas, izmantojot MapReduce paradigmu, SQL vaicājumu dzinēju, sadalīto failu sistēmu un NoSQL krātuvi atslēgas vērtību formātā.

YTsaurus izmantots Yandex infrastruktūrā lai efektīvi izmantotu superdatoru skaitļošanas jaudu no uzņēmuma Platformu var mērogot līdz vairāk nekā 10 000 mezglu klasteriem, kas aptver līdz pat miljonam procesoru un tūkstošiem GPU (mašīnmācīšanās uzdevumiem).

Izolētus konteinerus, kas darbojas fiziskajos serveros, var izmantot kā klasteru vienības. Krātuvē var būt eksabaiti datu, kas atrodas dažādos datu nesējos, piemēram, cietajos diskos, SSD, NVME un RAM.

Klasteris atbalsta dinamisku mezglu pievienošanu un noņemšanu, dublēšanu (nav viena atteices punkta), automātisku replikāciju, aktīvus klastera programmatūras jauninājumus un automātisku dublēšanas atkopšanu mezgla kļūmes gadījumā.

Tiek atbalstīti trīs veidu kopas: skaitļošanas klasteri (masveida paralēlai lielo datu apstrādei, izmantojot MapReduce darbības), klasteri rakurstabulām un atslēgu vērtību krātuvei, kā arī ģeogrāfiski sadalītas kopas.

Uz platformas balstīts pakalpojums var nodrošināt līdzekļus datu glabāšanai un apstrādei desmitiem tūkstošu lietotāju. Tipiskas Yandex YTsaurus lietojumprogrammas ietver informācijas glabāšanu par reklāmu tīkla lietotājiem, mašīnmācīšanās modeļu apmācību, meklēšanas indeksa veidošanu un datu noliktavas izveidi tādiem pakalpojumiem kā Yandex Taxi. , Food, Lavka un piegādes.

No pamata lietošanas gadījumiem tiek minēts:

  • Partijas apstrāde: MapReduce un SPYT (Apache Spark kā datu skaitļošanas dzinējs pakalpojumā YTsaurus) strukturētu un daļēji strukturētu datu apstrādei: ieraksti vai finanšu darījumi.
  • Ad hoc analīze: Ātri vaicājumi, izmantojot CHYT (ClickHouse serveru grupa YTsaurus skaitļošanas mezglos), nekopējot datus uz atsevišķu analītikas sistēmu. ODBC un JDBC ar iespēju savienot BI vizualizācijai.
  • OLTP uzdevumi: Darījumu darbs reāllaikā ar atslēgu vērtību krātuvi: piemēram, lietotāja profila krātuve, reklāmu rādīšana vai straumes apstrāde.
  • Mašīnmācība: Pārvaldiet GPU klasterus, lai apmācītu modeļus ar miljardiem parametru.
  • Meta informācijas glabāšana: Metainformācijas darījumu glabāšana un izplatīto slēdzeņu uzticams serviss.
  • Datu noliktavu un ETL izveide vairāku līmeņu datu apstrādei, izmantojot tipiskus rīkus: Apache Spark, SQL, MapReduce.

No arhitektūras galvenajiem elementiem tiek minēti:

  • Izplatīta failu sistēma un kļūmēm izturīga Cypress uz koka balstīta metainformācijas krātuve.
  • Izkliedētās skaitļošanas plānotājs ar MapReduce modeļa atbalstu, kā arī uzlabotas pamata darbības.
  • IT operāciju horizontālā mērogojamība.
  • Skaitļošanas resursu izolēšana un iespēja izdalīt noteiktus skaitļošanas resursus (CPU, GPU, RAM) dažādās proporcijās.
  • Rakurstabulas OLTP krātuves izveidei, atbalsts uz MVCC balstītai krātuvei, darījumiem, iespēja dzēst datus pēc derīguma termiņa beigām un ziņojumu rindas datu straumēšanai, izmantojot rakurstabulas.
  • API un bibliotēkas programmēšanas valodām C++, Python, Java, Go.
  • Tīmekļa saskarne lietotājiem un administratoriem, kas atbalsta navigāciju kokam līdzīgā krātuvē.

Beidzot ja jūs interesē uzzināt vairāk par to, jums jāzina, ka projekta kods ir rakstīts C/C++ valodā un ir atvērts saskaņā ar Apache 2.0 licenci. Jūs varat pārbaudīt sīkāku informāciju šī saite.

El GitHub krātuve satur servera kodu YTsaurus, k8s izmantoto izvietošanas ietvaru, sistēmas tīmekļa saskarni un klientu SDK populārām programmēšanas valodām, piemēram, C++, Java, Go un Python. 


Atstājiet savu komentāru

Jūsu e-pasta adrese netiks publicēta. Obligātie lauki ir atzīmēti ar *

*

*

  1. Atbildīgais par datiem: Migels Ángels Gatóns
  2. Datu mērķis: SPAM kontrole, komentāru pārvaldība.
  3. Legitimācija: jūsu piekrišana
  4. Datu paziņošana: Dati netiks paziņoti trešām personām, izņemot juridiskus pienākumus.
  5. Datu glabāšana: datu bāze, ko mitina Occentus Networks (ES)
  6. Tiesības: jebkurā laikā varat ierobežot, atjaunot un dzēst savu informāciju.