Big Data, Software Libre y Código Abierto: Aplicaciones disponibles

Big Data, gratis programvare og åpen kildekode: tilgjengelige applikasjoner

Big Data er et teknologisk konsept som er relatert til styring av store datamengder, strukturert og ustrukturert, som for tiden håndteres av store næringsliv, teknologiske, vitenskapelige og til og med offentlige sektorer.

Selv om når man snakker om Big Data, det er egentlig ikke datamengden som er viktig, men hva organisasjoner gjør med dataene. Siden Big Data, dets tilknyttede teknologi, kan analysere dem for å skaffe ideer som fører til bedre beslutningstaking, bevegelser og strategier. Og i dette aspektet, Fri programvare (SL) og åpen kildekode (CA) har bidratt mye til denne teknologien, siden mange utviklede applikasjoner er implementert i dette utviklingsformatet.

Big Data og gratis programvare

For fagfolk er det allerede kjent at Fri programvare, utviklingsmodellen, filosofien, er basert på å skape teknologier, hovedsakelig programvareprodukter, som igjen kan brukes, modifiseres og distribueres fritt. Og at Open Source er et viktig element i utviklingen av gratis programvare, siden det fokuserer mer på de praktiske fordelene med denne utviklingsdynamikken enn på etikken med produktfrihet og innbyggere.

Derfor, mens SL / CA bidrar med midler for å utføre Big Data, Big Data utfyller disse indirekte, ikke bare til fordel for den akselererte utvidelsen av teknologisk utvikling, men også for friheten til tilgang til informasjon som Big Data fører med seg.

Hva er big data?

Concept

For en av de største programvarene og teknologisk utvikling, IBM, Big Data er en:

«... teknologi som har åpnet dørene for en ny tilnærming til forståelse og beslutningstaking, som brukes til å beskrive enorme mengder data (strukturert, ustrukturert og semi-strukturert) som vil ta for lang tid og være veldig dyrt å laste inn inn i en relasjonsdatabase for analyse.

Mål

Big Data, dets teknologi, ble født med det mål å dekke hele spekteret av dataanalyse mulig, det vil si å dekke både det som eksisterer og er løst med dagens og forskjellige teknologier, så vel som det som ikke løses av eksisterende teknologier, for eksempel lagring og styring av store datamengder som har veldig spesifikke egenskaper.

Data

Buddata håndterer datamengder som vanligvis defineres av følgende egenskaper:

volum: Størrelse på data fra flere kilder.
hastighet: Hastighet som data fra flere kilder ankommer og administreres med.
Variasjon: Format av analyserte data fra flere kilder.

Jeg mener, datamengder som vanligvis er sammensatt av strukturerte, semistrukturerte og ustrukturerte data, og håndteres i enorme mengder som vanligvis er beskrevet med store mengder prefikser, for eksempel: Tera, Peta eller Exa, blant andre.

Og fra alle slags kilder, for eksempel Internett (Sosiale nettverk, digitale medier, nettsteder og databaser), Hardware (Mobiltelefoner, Multimedia-spillere, Posisjoneringssystemer, Sivile og industrielle digitale sensorer, blant andre) og Organisasjoner (Privat og offentlig, kommersiell, myndighet og samfunn).

betydning

Hva gjør Big Data til en så nyttig teknologi for organisasjoner (Privat og offentlig, kommersiell, myndighet og samfunn), er det faktum at det gir verdifull informasjon som mange ganger fungerer som et nøyaktig og pålitelig svar på spørsmål som ikke engang hadde blitt stilt for visse situasjoner eller problemer. Det vil si at dens nytte ofte sees på aspekter som vanligvis oppstår fra den samme informasjonen som samles inn og administreres.

Behandlingen av store mengder informasjon gjør det lettere for de behandlede dataene å formes eller testes på den mest hensiktsmessige måten. eller spesifiserer, som regnes som hensiktsmessig av administratoren. Dette gjør det mulig for organisasjoner som bruker Big Data å kunne identifisere problemer på en mer forståelig måte.

Samlingen av store datamengder og den etterfølgende analysen for å søke etter trender innenfor dem gjør at organisasjoner kan bli mer effektive, ved å bevege seg mye raskere, jevnere og i tide over dem. I tillegg tillater det dem å eliminere problemområder før problemer overvelder dem, noe som får dem til å miste fordeler, omdømme eller støtte.

Advantage

Big Data hjelper organisasjoner med å administrere dataene deres mye bedre, dette resulterer i identifisering av nye positive eller produktive muligheter for medlemmene (klienter eller borgere). Og dette fører igjen til smartere og mer effektive handlinger, besparelser i timer / arbeidskraft og penger, som ofte oversettes til lykke for alle involverte. Når Big Data brukes, legges verdien vanligvis til aktivitetene som utføres på følgende måter:

Kostnadsreduksjon: I lagring og styring av store datamengder.
Tidsreduksjon: Mer effektivitet og effektivitet i beslutningsprosesser.
Nye produkter og tjenester: Med evnen til å måle og forutse brukernes (kunder og / eller borgere) behov og problemer, økes tilfredsheten deres.

Fordeler

Godt brukte Big Data er ofte i stand til å bestemme årsakene til feil, problemer og mangler nesten i sanntid. Det er imidlertid å ta hensyn til det Big Data-teknologi er ikke et universalmiddel i seg selv. Så siterer en annen stor teknologi som Oracle, det kan legges til at:

“Å identifisere verdien av stordata betyr ikke bare å analysere den (som allerede er en fordel i seg selv). Det er en hel oppdagelsesprosess som krever at analytikere, forretningsbrukere og ledere stiller de riktige spørsmålene, identifiserer mønstre, tar informerte beslutninger og forutsier atferd.

SL / CA-applikasjoner for store data

Blant programvarene for fri programvare og åpen kildekode som er verdt å nevne for forskning, testing og implementering er:

I slekt

Apache Hadoop: Åpen kildekodeplattform som består av Hadoop Distributed File System (HDFS), Hadoop MapReduce og Hadoop Common.
Avro: Apache-prosjekt som tilbyr serialiseringstjenester.
Cassandra: Distribuert ikke-relasjonell database basert på en lagringsmodell av , utviklet i Java.
Chukwa: Programvare designet for storskala innsamling og analyse av hendelseslogger.
Strømme: Programvare hvis hovedoppgave er å dirigere data fra en kilde til et annet sted.
HBase: Søyledatabase (kolonneorientert database) som kjører på HDFS.
Vinter: "Data Warehouse" -infrastruktur som letter administrasjonen av store datamengder som er lagret i et distribuert miljø.
Jaql: Funksjonelt og erklærende språk som tillater utnyttelse av data i JSON-format designet for å behandle store mengder informasjon.
Lucene: Programvare som tilbyr biblioteker for indeksering og søking på tekst.
oozie: Open source-prosjekt som forenkler arbeidsflyter og koordinering mellom hver av prosessene.
Gris: Programvare som lar Hadoop-brukere fokusere mer på å analysere alle datasett og bruke mindre tid på å bygge MapReduce-programmer.
Dyrepasser: Sentralisert infrastruktur og tjenester som kan brukes av applikasjoner for å sikre at prosesser på tvers av en klynge serialiseres eller synkroniseres.

uavhengig

Andre like kjent, men ikke relatert til open source-plattformen Hadoop er:

Elastisk søk: Fulltekstbasert søke- og analysemotor.
MongoDB: NoSQL-database basert på dokumentdatamodellen.
Cassandra: Apache open source-prosjekt designet for NoSQL-databaseadministrasjon.
CouchDB: Åpen kildekode NoSQL-database basert på vanlige standarder for enkel tilgjengelighet og nettkompatibilitet med et mangfold.
Sol: Åpen kildekode-søkemotor basert på Lucene-prosjektets Java-bibliotek.
Andre RDBMS-verktøy: MySQL Cluster og VoltDB.

Konklusjon

Vår nåværende (og umiddelbare neste) tid er nedsenket eller druknet i en høy og voksende datamasse, som har mye å si som helhet, enn individuelt. Derfor vil bruken av Big Data-teknologi i nåtid og den nærmeste fremtid hjelpe samfunnet, hele menneskeheten, til å oppdage en uendelig mengde ting (hendelser eller oppfinnelser), som kunne ha tatt mange år å oppdage seg selv. , uten bruk av dette.

som Big Data og dets verktøy gir tilstrekkelig analysehastighet analyser et oppnådd resultat raskt og bearbeid det så mange ganger som nødvendig, på kort tid, for å finne den sanne eller nærmeste verdien du prøver å nå. Hvis du har funnet temaet Big Data interessant, kan du utvide emnet litt mer ved å lese denne rapporten på BBVA.

DesdeLinux