Ang Apache Storm ay isang real-time na sistema ng pagproseso ng data

bagyo_logo

Ang Apache Storm ay isang proyekto na nagbibigay-daan sa iyo upang ayusin ang pagproseso garantisado ng iba`t ibang mga kaganapan sa real time. Halimbawa, Storm maaaring magamit upang pag-aralan ang mga stream ng data sa real time, upang maisagawa mga gawain sa pag-aaral ng makina, ayusin ang patuloy na mga kalkulasyon, ipatupad ang RPC, ETL, atbp.

Ang system sumusuporta sa clustering, lupang bumuo ng mga pagsasaayos na mapagparaya sa kasalanan, ginagarantiyahan ang mode ng pagproseso ng data, at may sapat na mataas na throughput upang maproseso ang higit sa isang milyong mga kahilingan bawat segundo sa isang cluster node.

Pagsasama ng Apache Storm sa iba't ibang mga sistema ng pagpoproseso ng pila at mga teknolohiya ng database.

Ang arkitektura ng Storm nagsasangkot ng pagtanggap at pagproseso ng mga hindi istrakturang stream ng data at patuloy na na-update gamit ang di-makatwirang mga kumplikadong Controller na may posibilidad ng paghati sa pagitan ng iba't ibang mga yugto ng pagkalkula.

Tungkol sa Apache Storm

Ang proyekto ay inilipat sa pamayanan ng Apache matapos ang pagkakaroon ng Twitter ng BackType, ang kumpanya na orihinal na bumuo ng balangkas.

Sa pagsasagawa, ginamit ang Storm sa BackType upang pag-aralan ang pagsasalamin ng mga kaganapan sa microblogs, sa pamamagitan ng paghahambing ng mga bagong tweet nang mabilis at ang mga link na ginamit sa kanila (halimbawa, nasuri sila bilang panlabas na mga link o mga ad sa Twitter ay nai-broadcast ng iba pang mga kalahok).

Ang pag-andar ng bagyo ay ihinahambing sa Hadoop platform, at ang pangunahing pagkakaiba ay ang data ay hindi inilalagay sa imbakan, ngunit natanggap mula sa labas at naproseso sa real time.

Sa Storm, walang built-in na layer ng pag-iimbak at ang query ng analytic ay nagsisimulang mag-apply sa papasok na data hanggang sa ito ay kanselahin (kung ginagamit ng Hadoop ang trabaho sa MapReduce na tumatagal ng isang may takdang oras, pagkatapos ay ginagamit ng Storm ang ideya ng pagpapatakbo ng "topologies" na tuloy-tuloy.

Ang pagpapatupad ng mga humahawak ay maaaring ipamahagi sa maraming mga server: ang Storm awtomatikong parallelize ang trabaho sa mga thread sa iba't ibang mga node ng kumpol.

Mga pangunahing kaso ng paggamit na maaaring ibigay sa Apache Storm

Pagproseso ng mga bagong stream ng data o pag-update ng database sa real time
Patuloy na mga kalkulasyon: Ang bagyo ay maaaring gumawa ng tuluy-tuloy na mga kahilingan at maproseso ang tuluy-tuloy na daloy, paglilipat ng mga resulta ng pagproseso sa kliyente sa real time.

Ipinamahagi ang tawag sa remote na pamamaraan (RPC): Maaaring magamit ang isang bagyo upang magbigay ng kasabay sa pagpapatupad ng mga query na masinsinang mapagkukunan.

Ang isang gawain ("topology") sa Storm ay isang ipinamamahagi na pag-andar sa pagitan ng mga node na naghihintay para maproseso ang mga papasok na mensahe.

Matapos matanggap ang mensahe, pinoproseso ito ng pagpapaandar sa isang lokal na konteksto at ibabalik ang resulta. Ang isang halimbawa ng paggamit ng ibinahaging RPC ay maaaring parallel na pagpoproseso ng mga query sa paghahanap o pagsasagawa ng mga pagpapatakbo sa isang malaking hanay ng mga set.

Apache Storm 2.0 Pangunahing Mga Bagong Tampok

Ang Apache Foundation naglunsad ng mga pagkukusa upang ilipat ang Storm sa isang bagong kernel na nakasulat sa Java, ang mga resulta nito ay iminungkahi sa bersyon ng Apache Storm 2.0.

Ang lahat ng mga pangunahing bahagi ng platform ay nakasulat muli sa Java. Ang suporta para sa mga handler sa pagsusulat sa Clojure ay mananatili, ngunit inaalok ngayon sa anyo ng mga link. Kinakailangan ang Java 8 para gumana ang Storm 2.0.0.

Ang modelo ng multithreaded na pagpoproseso ay ganap na muling dinisenyo, na nagreresulta sa isang kapansin-pansin na pagtaas ng pagganap (para sa ilang mga topology, ang mga latency ay nabawasan ng 50-80%).

Sa bagong bersyon isang bagong nai-type na Streams API ay iminungkahi, na nagbibigay-daan sa iyo upang i-configure ang mga handler gamit ang mga pagpapatakbo sa functional na istilo ng pagprograma.

Ang bagong API ay ipinatupad batay sa regular na API at sinusuportahan ang awtomatikong pagsasama ng mga operasyon upang ma-optimize ang kanilang pagproseso. Ang Windowing API para sa pagpapatakbo ng window ay nagdaragdag ng suporta para sa pag-save at pagpapanumbalik ng estado sa backend.

Sa kabilang dako ang controller upang simulan ang karagdagang mga mapagkukunan sa account kapag gumagawa ng mga desisyon na hindi limitado sa CPU at memorya, tulad ng mga parameter ng network at GPU, naidagdag ito sa scheduler ng boot.

Ang isang host ng mga pagpapahusay na nauugnay sa pagtiyak na pagsasama sa Kafka platform.
Ang access control system ay pinalawak, kung saan ang pagkakataon ay lumitaw upang lumikha ng mga pangkat ng mga administrador at token delegation.

Nagdagdag ng mga pagpapahusay na nauugnay sa suporta para sa SQL at mga sukatan. Ang interface ng administrator ay may mga bagong utos para sa pag-debug ng estado ng cluster.


Iwanan ang iyong puna

Ang iyong email address ay hindi nai-publish. Mga kinakailangang patlang ay minarkahan ng *

*

*

  1. Responsable para sa data: Miguel Ángel Gatón
  2. Layunin ng data: Kontrolin ang SPAM, pamamahala ng komento.
  3. Legitimation: Ang iyong pahintulot
  4. Komunikasyon ng data: Ang data ay hindi maiparating sa mga third party maliban sa ligal na obligasyon.
  5. Imbakan ng data: Ang database na naka-host ng Occentus Networks (EU)
  6. Mga Karapatan: Sa anumang oras maaari mong limitahan, mabawi at tanggalin ang iyong impormasyon.