Apache Storm reāllaika datu apstrādes sistēma

storm_logo

Apache Storm ir projekts, kas ļauj organizēt apstrādi garantēts dažādu notikumu reāllaikā. Piemēram, Vētra var izmantot, lai reāllaikā analizētu datu plūsmas, izpildīt mašīnmācīšanās uzdevumus, organizē nepārtrauktus aprēķinus, ievieš RPC, ETL utt.

Sistēma atbalsta kopu veidošanu, lLai izveidotu kļūdām tolerantas konfigurācijas, garantētu datu apstrādes režīmu un pietiekami lielu caurlaidspēju, lai kopas mezglā apstrādātu vairāk nekā miljonu pieprasījumu sekundē.

Apache Storm integrācija ar dažādām rindu apstrādes sistēmām un datu bāzu tehnoloģijām.

Storm arhitektūra ietver nestrukturētu datu plūsmu saņemšanu un apstrādi un pastāvīgi atjaunina, izmantojot patvaļīgus sarežģītus kontrolierus ar iespēju sadalīt starp dažādiem aprēķinu posmiem.

Par Apache Storm

Projekts tika pārsūtīts uz Apache kopienu pēc tam, kad uzņēmumu Twitter, kas sākotnēji izstrādāja sistēmu, iegādājās Twitter.

Praksē Storm tika izmantots BackType, lai analizētu notikumu atspoguļojumu mikroblogos, salīdzinot jaunus tvītus lidojumā un tajos izmantotās saites (piemēram, tos novērtēja kā ārējas saites vai arī citus dalībniekus pārraidīja Twitter reklāmas).

Storm funkcionalitāte ir salīdzināma ar Hadoop platformu, un galvenā atšķirība ir tā, ka dati netiek ievietoti repozitorijā, bet tiek saņemti no ārpuses un apstrādāti reāllaikā.

Stormā nav iebūvēta krātuves slāņa, un analītiskais vaicājums sāk attiekties uz ienākošajiem datiem, līdz tie tiek atcelti (ja Hadoop izmanto MapReduce darbu, kas aizņem noteiktu laiku, tad Storm izmanto ideju nepārtraukti palaist "topoloģijas".

Apstrādātāju izpildi var sadalīt vairākos serveros: Storm automātiski paralēli darbam ar pavedieniem dažādos klastera mezglos.

Galvenie lietošanas gadījumi, kurus var piešķirt Apache Storm

Jaunu datu plūsmu vai datu bāzes atjauninājumu apstrāde reāllaikā
Nepārtraukti aprēķini: Storm var veikt nepārtrauktus pieprasījumus un apstrādāt nepārtrauktas plūsmas, apstrādes rezultātu nodošana klientam reāllaikā.

Izplatīts attālās procedūras izsaukums (RPC): vētru var izmantot, lai nodrošinātu vienlaicīgumu, izpildot resursus ietilpīgus vaicājumus.

Storm uzdevums ("topoloģija") ir sadalīta funkcija starp mezgliem, kas gaida ienākošo ziņojumu apstrādi.

Pēc ziņojuma saņemšanas funkcija to apstrādā lokālā kontekstā un atgriež rezultātu. Izplatītā RPC izmantošanas piemērs varētu būt meklēšanas vaicājumu paralēla apstrāde vai darbību veikšana lielam kopu kopumam.

Apache Storm 2.0 galvenās jaunās funkcijas

Apache fonds uzsāka iniciatīvas, lai pārsūtītu Storm uz jaunu kodolu, kas rakstīts Java, kuru rezultāti tiek piedāvāti Apache Storm 2.0 versijā.

Visas platformas pamatkomponenti tiek pārrakstīti Java valodā. Atbalsts rakstīšanas apstrādātājiem Clojure tiek saglabāts, taču tagad tiek piedāvāts saišu veidā. Lai Storm 8 darbotos, nepieciešama Java 2.0.0.

Daudzšķiedru apstrādes modelis ir pilnībā pārveidots, kā rezultātā ir ievērojami palielinājies veiktspēja (dažām topoloģijām latentums ir samazināts par 50–80%).

Jaunajā versijā tika ierosināta jauna ierakstīta Stream API, kas ļauj konfigurēt apstrādātājus, izmantojot darbības funkcionālā programmēšanas stilā.

Jaunā API tiek ieviesta, pamatojoties uz parasto API, un atbalsta automātisku darbību apvienošanu, lai optimizētu to apstrādi. Windowing API loga darbībām papildina aizmugures stāvokļa saglabāšanu un atjaunošanu.

No otras puses kontrolierim sākt izmantot papildu resursus, pieņemot lēmumus, kas neaprobežojas tikai ar procesoru un atmiņu, piemēram, tīkla un GPU parametri, tas ir pievienots sāknēšanas plānotājam.

Daudzi uzlabojumi, kas saistīti ar integrācijas nodrošināšanu ar Kafka platformu.
Ir paplašināta piekļuves kontroles sistēma, kurā radusies iespēja izveidot administratoru grupas un žetonu deleģēšanu.

Pievienoti uzlabojumi saistībā ar SQL un metrikas atbalstu. Administratora saskarnē ir jaunas komandas klastera stāvokļa atkļūdošanai.


Atstājiet savu komentāru

Jūsu e-pasta adrese netiks publicēta. Obligātie lauki ir atzīmēti ar *

*

*

  1. Atbildīgais par datiem: Migels Ángels Gatóns
  2. Datu mērķis: SPAM kontrole, komentāru pārvaldība.
  3. Legitimācija: jūsu piekrišana
  4. Datu paziņošana: Dati netiks paziņoti trešām personām, izņemot juridiskus pienākumus.
  5. Datu glabāšana: datu bāze, ko mitina Occentus Networks (ES)
  6. Tiesības: jebkurā laikā varat ierobežot, atjaunot un dzēst savu informāciju.