Apache Storm reaaliaikainen tietojenkäsittelyjärjestelmä

myrsky_logo

Apache Storm on projekti, jonka avulla voit organisoida käsittelyn taattu erilaisia ​​tapahtumia reaaliajassa. Esimerkiksi Storm voidaan käyttää analysoimaan datavirtoja reaaliajassa, suorittaa koneoppimistehtävät, järjestää jatkuvia laskutoimituksia, toteuttaa RPC, ETL jne.

Järjestelmä tukee klustereita, lrakentaa vikasietoisia kokoonpanoja, taattu tietojenkäsittelymoodi ja riittävän suuri läpijuoksu, jotta klusterisolmussa voidaan käsitellä yli miljoona pyyntöä sekunnissa.

Apache Storm -integrointi erilaisten jononkäsittelyjärjestelmien ja tietokantatekniikoiden kanssa.

Stormin arkkitehtuuri sisältää jäsentämättömien datavirtojen vastaanottamisen ja käsittelyn ja päivitetään jatkuvasti mielivaltaisilla monimutkaisilla ohjaimilla, joilla on mahdollisuus jakaa eri laskentavaiheiden välillä.

Tietoja Apache Stormista

Projekti luovutettiin Apache-yhteisölle sen jälkeen, kun BackType, yritys, joka alun perin kehitti kehityksen, hankki Twitterin.

Käytännössä Stormia käytettiin BackType: ssä analysoimaan tapahtumien heijastusta mikroblogeissa, vertaamalla uusia twiittejä lennossa ja niissä käytettyjä linkkejä (esimerkiksi ne arvioitiin ulkoisiksi linkeiksi tai muut osallistujat lähettivät Twitter-mainoksia).

Storm-toiminnallisuus verrataan Hadoop-alustaan, ja tärkein ero on, että tietoja ei laiteta arkistoon, vaan ne vastaanotetaan ulkopuolelta ja käsitellään reaaliajassa.

Stormissa ei ole sisäänrakennettua tallennuskerrosta ja analyyttinen kysely alkaa soveltaa saapuvia tietoja, kunnes se peruutetaan (jos Hadoop käyttää MapReduce-työtä, joka vie rajallisen ajan, Storm käyttää ajatusta käynnistä " topologiat "jatkuvasti.

Käsittelijöiden suoritus voidaan jakaa useille palvelimille: Storm rinnastaa työn automaattisesti klusterin eri solmuissa olevien säikeiden kanssa.

Tärkeimmät käyttötapaukset, jotka voidaan antaa Apache Stormille

Uusien datavirtojen tai tietokantapäivitysten käsittely reaaliajassa
Jatkuvat laskelmat: Storm voi tehdä jatkuvia pyyntöjä ja käsitellä jatkuvia virtauksia, käsittelyn tulosten siirtäminen asiakkaalle reaaliajassa.

Hajautettu etäkutsu (RPC): Myrskyä voidaan käyttää samanaikaisuuden aikaansaamiseen resurssiintensiivisissä kyselyissä.

Stormissa tehtävä ("topologia") on hajautettu toiminto solmujen välillä, joka odottaa saapuvien viestien käsittelyä.

Saatuaan viestin toiminto käsittelee sen paikallisessa yhteydessä ja palauttaa tuloksen. Esimerkki hajautetun RPC: n käytöstä voi olla hakulausekkeiden rinnakkainen käsittely tai toimintojen suorittaminen suurille joukkoille.

Apache Storm 2.0: n tärkeimmät uudet ominaisuudet

Apache-säätiö käynnisti aloitteet Stormin siirtämiseksi uudelle Java-kirjoitetulle ytimelle, jonka tuloksia ehdotetaan Apache Storm 2.0 -versiossa.

Kaikki alustan peruskomponentit kirjoitetaan uudelleen Java-muodossa. Tuki Clojuren kirjoitusenkäsittelijöille säilyy, mutta sitä tarjotaan nyt linkkien muodossa. Storm 8: n toimimiseen tarvitaan Java 2.0.0.

Monisäikeinen prosessointimalli on uudistettu kokonaan, mikä on johtanut huomattavaan suorituskyvyn kasvuun (joissakin topologioissa latensseja on vähennetty 50-80%).

Uudessa versiossa ehdotettiin uutta kirjoitettua Stream-sovellusliittymää, jonka avulla voit määrittää käsittelijät toiminnallisella ohjelmointityylillä.

Uusi sovellusliittymä on toteutettu tavallisen sovellusliittymän perusteella ja tukee toimintojen automaattista yhdistämistä niiden käsittelyn optimoimiseksi. Ikkunatoimintojen Windowing-sovellusliittymä lisää tukea taustajärjestelmän tilan tallentamiseen ja palauttamiseen.

Toisaalta ohjaimen on aloitettava lisäresurssit huomioon otettaessa päätöksiä, jotka eivät rajoitu vain suorittimeen ja muistiin, kuten verkko- ja GPU-parametrit, se on lisätty käynnistysaikatauluun.

Lukuisia parannuksia, jotka liittyvät integroinnin varmistamiseen Kafka-alustan kanssa.
Pääsynhallintajärjestelmää on laajennettu, jolloin on syntynyt mahdollisuus luoda järjestelmänvalvojaryhmiä ja tunnusvaltuutuksia.

Lisätty parannuksia, jotka liittyvät SQL: n ja muuttujien tukemiseen. Järjestelmänvalvojan käyttöliittymässä on uusia komentoja klusterin tilan virheenkorjaamiseksi.


Jätä kommentti

Sähköpostiosoitettasi ei julkaista. Pakolliset kentät on merkitty *

*

*

  1. Vastuussa tiedoista: Miguel Ángel Gatón
  2. Tietojen tarkoitus: Roskapostin hallinta, kommenttien hallinta.
  3. Laillistaminen: Suostumuksesi
  4. Tietojen välittäminen: Tietoja ei luovuteta kolmansille osapuolille muutoin kuin lain nojalla.
  5. Tietojen varastointi: Occentus Networks (EU) isännöi tietokantaa
  6. Oikeudet: Voit milloin tahansa rajoittaa, palauttaa ja poistaa tietojasi.