大数据是与管理大量数据有关的技术概念,结构化和非结构化,目前由大型企业,技术,科学甚至政府部门处理。
虽然在谈论 大数据并不是真正重要的数据量,而是组织如何处理数据。 由于大数据及其相关技术可以对它们进行分析,从而获得可导致更好的决策,动作和策略的想法。 在这方面, 自由软件(SL)和开源(CA)为这项技术做出了很大贡献,因为许多开发的应用程序都已以这种开发格式实现。
大数据和免费软件
对于本领域技术人员而言,众所周知 自由软件,其开发模型和理念基于建立技术,主要是软件产品,这些技术又可以自由使用,修改和分发。 开放源代码是自由软件开发中的重要元素,因为它更注重于这种开发动态的实际优势,而不是产品自由和道德准则。公民。
因此,虽然 SL / CA有助于执行大数据,大数据间接地补充了这些信息,不仅是为了加快技术发展的速度,而且是为了获得与大数据一起带来的信息的自由。
什么是大数据?
概念
对于软件和技术开发领域的佼佼者之一, IBM,大数据是:
«...这项技术为新的理解和决策方法打开了大门,该方法用于描述大量数据(结构化,非结构化和半结构化),这些数据将花费很长时间并且非常昂贵,无法载入关系数据库进行分析。
目标
大数据及其技术的诞生是为了涵盖可能的整个数据分析范围,即涵盖现有和不同技术所存在和解决的问题,以及现有技术无法解决的问题,例如 存储和管理大量数据 具有非常具体的特征。
数据
出价数据处理通常由以下特征定义的数据量:
- 成交量: 来自多个来源的数据大小。
- 速度: 来自多个来源的数据到达和管理的速度。
- 品种: 来自多个来源的分析数据的格式。
我的意思是, 通常由结构化,半结构化和非结构化数据组成的数据量,并且要进行大量处理,通常使用大量前缀来描述,例如:Tera,Peta或Exa等。
并且来自各种来源,例如互联网 (社交网络,数字媒体,网站和数据库), 设备 (手机,多媒体播放器,定位系统,民用和工业数字传感器等)和 组织 (私人和公共,商业,政府和社区)。
重要性
是什么使大数据成为组织的有用技术 (私人和公共,商业,政府和社区), 它提供了有价值的信息的事实 通常可以准确,可靠地回答甚至没有被问过的问题 对于某些情况或问题。 也就是说,通常在收集和管理相同信息的方面会看到它的用处。
对大量信息的处理使以最合适的方式更容易对已处理的数据进行成形或测试。 或指定,管理员认为适当。 这使使用大数据的组织能够以更易理解的方式识别问题。
收集大量数据并对其进行后续分析以搜索其中的趋势使组织可以更有效地工作,可以更快,更流畅,更及时地在它们上方移动。 此外,它使他们能够在问题超越问题之前消除问题区域,从而使他们失去利益,声誉或支持。
优点
大数据可帮助组织更好地管理其数据,从而为其成员(客户或公民)确定新的积极或生产性机会。 而这反过来又导致采取了更明智,更有效的行动,节省了工时/人工和金钱,通常可为每个参与人员带来幸福。 使用大数据时,通常通过以下方式将价值添加到执行的活动中:
- 降低成本: 在存储和管理大量数据方面。
- 减少时间: 提高决策效率和效力。
- 新产品和服务: 通过测量和预测用户(客户和/或公民)的需求和问题的能力,他们的满意度得到了提高。
好处
充分利用的大数据通常能够几乎实时地确定故障,问题和缺陷的根本原因。 但是,要考虑到 大数据技术本身并不是万灵药。 因此引用了另一项伟大的技术,例如 甲骨文, 可以添加以下内容:
“识别大数据的价值不仅意味着对其进行分析(这本身就是一种优势)。 这是一个完整的发现过程,需要分析师,业务用户和执行人员提出正确的问题,识别模式,做出明智的决策并预测行为。
大数据的SL / CA应用
在研究,测试和实现方面值得一提的自由软件和开源应用程序包括:
有关
- Apache Hadoop: 由Hadoop分布式文件系统(HDFS),Hadoop MapReduce和Hadoop Common组成的开源平台。
- Avro: 提供序列化服务的Apache项目。
- 卡桑德拉: 基于存储模型的分布式非关系数据库,用Java开发。
- 朱夸 专为大规模收集和分析事件日志而设计的软件。
- 水槽: 该软件的主要任务是将数据从一个源定向到其他位置。
- HBase: 在HDFS上运行的列式数据库(面向列的数据库)。
- 蜂巢: “数据仓库”基础结构,有助于管理存储在分布式环境中的大量数据。
- Jaql: 功能性和声明性语言,允许使用旨在处理大量信息的JSON格式的数据。
- Lucene: 提供用于为文本建立索引和搜索的库的软件。
- Oozie: 开源项目,简化了工作流和每个流程之间的协调。
- 猪: 允许Hadoop用户更加专注于分析所有数据集并花费更少时间构建MapReduce程序的软件。
- ZooKeeper: 应用程序可以使用集中化的基础结构和服务来确保集群中的进程被序列化或同步。
独立
其他与众不同但与开源平台Hadoop不相关的其他因素是:
- Elasticsearch: 基于全文的搜索和分析引擎。
- MongoDB: 基于NoSQL数据库的文档数据模型。
- 卡桑德拉: 专为NoSQL数据库管理而设计的Apache开源项目。
- CouchDB: 基于通用标准的开源NoSQL数据库,可轻松访问并具有多种Web兼容性。
- Solr: 基于Lucene项目Java库的开源搜索引擎。
其他RDBMS工具:MySQL Cluster和VoltDB。
结论
我们当前(以及即将到来的下一个)时间沉浸或淹没在海量且不断增长的数据中,从整体上讲,比起单个数据而言,要说的更多。 因此,在当前和不久的将来使用大数据技术将帮助整个人类社会发现无限的事物(事件或发明),而这些事物可能要花费很多年才能发现自己。 ,无需使用此功能。
如 大数据及其工具可提供足够的分析速度 分析快速获得的结果,并在短时间内根据需要对其进行多次处理,以找到您要达到的真实或最接近的值。 如果您发现大数据的主题很有趣,可以通过阅读以下内容的《报告》进一步扩展主题 BBVA.