大數據是與管理大量數據有關的技術概念,結構化和非結構化,目前由大型企業,技術,科學甚至政府部門處理。
雖然在談論 大數據並不是真正重要的數據量,而是組織如何處理數據。 由於大數據及其相關技術可以對它們進行分析以獲得想法,從而更好地制定決策,制定決策和製定戰略。 在這方面, 自由軟件(SL)和開源(CA)為這項技術做出了很大貢獻,因為許多開發的應用程序都已以這種開發格式實現。
大數據和免費軟件
對於本領域技術人員而言,眾所周知 自由軟件,其開發模型和理念基於建立技術,主要是軟件產品,這些技術又可以自由使用,修改和分發。 開放源代碼是自由軟件開發中的重要元素,因為它更注重於這種開發動態的實際優勢,而不是產品自由和道德準則。公民。
因此,雖然 SL / CA有助於執行大數據,大數據間接地補充了這些信息,不僅是為了加快技術發展的速度,而且是為了獲得與大數據一起帶來的信息的自由。
什麼是大數據?
Concepto
對於軟件和技術開發領域的佼佼者之一, IBM,大數據是:
«...為新的理解和決策方法打開了大門,該技術用於描述大量數據(結構化,非結構化和半結構化),這些數據將花費太長時間並且非常昂貴,無法加載到關係數據庫進行分析。
目標
大數據及其技術的誕生是為了涵蓋可能的整個數據分析範圍,即涵蓋現有和不同技術所存在和解決的問題,以及現有技術無法解決的問題,例如 存儲和管理大量數據 具有非常具體的特徵。
數據
出價數據處理通常由以下特徵定義的數據量:
- 數量: 來自多個來源的數據大小。
- 速度: 來自多個來源的數據到達和管理的速度。
- 品種: 來自多個來源的分析數據的格式。
我的意思是, 通常由結構化,半結構化和非結構化數據組成的數據量,並且需要大量處理,通常使用大量前綴來描述,例如:Tera,Peta或Exa等。
並且來自各種來源,例如互聯網 (社交網絡,數字媒體,網站和數據庫), 設備 (手機,多媒體播放器,定位系統,民用和工業數字傳感器等)和 組織機構 (私人和公共,商業,政府和社區)。
重要性
是什麼使大數據成為組織的有用技術 (私人和公共,商業,政府和社區), 它提供了有價值的信息的事實 很多次可以準確,可靠地回答甚至沒有被問過的問題 對於某些情況或問題。 也就是說,通常在收集和管理相同信息的方面會看到它的用處。
處理大量信息使以最適當的方式更容易對已處理的數據進行成形或測試。 或指定其管理員認為適當的內容。 這使使用大數據的組織能夠以更易理解的方式識別問題。
收集大量數據並對其進行後續分析以搜索其中的趨勢使組織可以更有效地工作,可以更快,更平穩,更及時地在它們上方移動。 此外,它使他們能夠在問題超越問題之前消除問題區域,從而使他們失去利益,聲譽或支持。
優點
大數據可幫助組織更好地管理其數據,從而為成員(客戶或公民)確定新的積極或生產性機會。 而這反過來又導致採取了更明智,更有效的行動,節省了工時/人工和金錢,這通常會為每個參與人員帶來幸福。 使用大數據時,通常通過以下方式將價值添加到執行的活動中:
- 降低成本: 在存儲和管理大量數據方面。
- 減少時間: 提高決策效率和效力。
- 新產品和服務: 通過測量和預測用戶(客戶和/或公民)的需求和問題的能力,他們的滿意度得到了提高。
好處
充分利用的大數據通常能夠幾乎實時地確定故障,問題和缺陷的根本原因。 但是,要考慮到 大數據技術本身並不是萬靈藥。 因此引用了另一項偉大的技術,例如 甲骨文, 可以添加以下內容:
“識別大數據的價值不僅意味著對其進行分析(這本身就是一種優勢)。 這是一個完整的發現過程,需要分析師,業務用戶和執行人員提出正確的問題,識別模式,做出明智的決策並預測行為。
大數據的SL / CA應用
在研究,測試和實現方面值得一提的自由軟件和開源應用程序包括:
有關
- Apache Hadoop: 由Hadoop分佈式文件系統(HDFS),Hadoop MapReduce和Hadoop Common組成的開源平台。
- Avro: 提供序列化服務的Apache項目。
- 卡桑德拉: 基於存儲模型的分佈式非關係數據庫,用Java開發。
- 朱誇 專為大規模收集和分析事件日誌而設計的軟件。
- 水槽: 該軟件的主要任務是將數據從一個源定向到其他位置。
- HBase: 在HDFS上運行的列式數據庫(面向列的數據庫)。
- 蜂巢: “數據倉庫”基礎結構,有助於管理存儲在分佈式環境中的大量數據。
- Jaql: 功能性和聲明性語言,允許使用旨在處理大量信息的JSON格式的數據。
- Lucene: 提供用於為文本建立索引和搜索的庫的軟件。
- Oozie: 開源項目,簡化了工作流和每個流程之間的協調。
- 豬: 允許Hadoop用戶更加專注於分析所有數據集並花費更少時間構建MapReduce程序的軟件。
- ZooKeeper: 應用程序可以使用集中化的基礎結構和服務來確保集群中的進程被序列化或同步。
獨立的
其他與眾不同但與開源平台Hadoop不相關的其他因素是:
- Elasticsearch: 基於全文的搜索和分析引擎。
- MongoDB: 基於NoSQL數據庫的文檔數據模型。
- 卡桑德拉: 專為NoSQL數據庫管理而設計的Apache開源項目。
- CouchDB: 基於通用標準的開源NoSQL數據庫,可輕鬆訪問並具有多種Web兼容性。
- Solr: 基於Lucene項目Java庫的開源搜索引擎。
其他RDBMS工具:MySQL Cluster和VoltDB。
結論
我們當前(以及即將到來的下一個)時間沉浸或淹沒在海量且不斷增長的數據中,從整體上講,比起單個數據而言,要說的更多。 因此,在當前和不久的將來使用大數據技術將幫助整個人類社會發現無限的事物(事件或發明),而這些事物可能要花費很多年才能發現自己。 ,無需使用此功能。
如 大數據及其工具可提供足夠的分析速度 分析快速獲得的結果,並在短時間內根據需要對其進行多次處理,以找到您要達到的真實或最接近的值。 如果您發現大數據主題很有趣,可以通過閱讀以下內容的“報告”來擴大主題範圍: BBVA.