ビッグデータは、大量のデータの管理に関連する技術的概念です、構造化および非構造化。現在、大企業、技術、科学、さらには政府部門によって処理されています。
について話すときが ビッグデータ、重要なのは実際にはデータの量ではなく、組織がデータをどのように処理するかです。 ビッグデータ、それに関連するテクノロジーは、それらを分析して、より良い意思決定、動き、戦略につながるアイデアを得ることができます。 そしてこの側面では、 フリーソフトウェア(SL)とオープンソース(CA)は、このテクノロジーに大きく貢献しています。、多くの開発されたアプリケーションがこの開発フォーマットで実装されているため。
ビッグデータと無料ソフトウェア
当業者にとって、それはすでによく知られている。 Free Software、その開発モデル、その哲学は、技術、主にソフトウェア製品の作成に基づいており、それらは自由に使用、変更、および配布できます。 そして、そのオープンソースは、製品の自由の倫理ではなく、ダイナミックなこの開発の実際的な利点に焦点を当てているため、フリーソフトウェアの開発における重要な要素です。市民。
したがって、 SL / CAは、ビッグデータを実行する手段に貢献します、ビッグデータは、技術開発の加速的な拡大の利益のためだけでなく、ビッグデータがもたらす情報へのアクセスの自由のためにも、これらを間接的に補完します。
ビッグデータとは何ですか?
Concepto
ソフトウェアと技術開発の偉人のXNUMX人のために、 IBM、ビッグデータは次のとおりです。
«...新しい理解と意思決定アプローチへの扉を開いたテクノロジー。これは、ロードするのに時間がかかり、非常にコストがかかる大量のデータ(構造化、非構造化、半構造化)を記述するために使用されます。分析用のリレーショナルデータベース。
目標
その技術であるビッグデータは、可能なデータ分析の全範囲をカバーすることを目的として誕生しましたつまり、現在のさまざまなテクノロジーで存在し、解決されるものと、次のような既存のテクノロジーでは解決されないものの両方をカバーすることです。 大量のデータの保存と管理 非常に特殊な特性があります。
データ
入札データは、通常、次の特性によって定義される大量のデータを処理します。
- ボリューム: 複数のソースからのデータのサイズ。
- 速度: 複数のソースからのデータが到着して管理される速度。
- バラエティ: 複数のソースからの分析データのフォーマット。
つまり、 通常、構造化データ、半構造化データ、および非構造化データで構成される大量のデータ、および大量に処理されます。これらは通常、Tera、Peta、Exaなどの大量のプレフィックスで記述されます。
そして、インターネットなど、あらゆる種類のソースから (ソーシャルネットワーク、デジタルメディア、ウェブサイト、データベース)、 機器 (携帯電話、マルチメディアプレーヤー、ポジショニングシステム、民間および産業用デジタルセンサーなど)および 団体 (私的および公的、商業的、政府およびコミュニティ)。
意義
ビッグデータを組織にとってこれほど有用なテクノロジーにしている理由 (私的および公的、商業的、政府およびコミュニティ)、 それが貴重な情報を提供するという事実です 多くの場合、尋ねられたことさえなかった質問に対する正確で信頼できる答えとして役立ちます 特定の状況や問題について。 つまり、その有用性は、通常、収集および管理される同じ情報から生じる側面でよく見られます。
大量の情報を処理することで、処理されたデータを最も適切な方法で整形またはテストすることが容易になります。 または指定します。これは、管理者によって適切と見なされます。 これにより、ビッグデータを使用する組織は、より理解しやすい方法で問題を特定できるようになります。
大量のデータを収集し、その中の傾向を検索するためのその後の分析により、組織はより効果的かつ効率的になります。、それらの上をはるかに速く、スムーズに、そしてタイムリーに移動することによって。 さらに、問題が彼らを圧倒する前に彼らが問題領域を排除することを可能にし、彼らに利益、評判またはサポートを失う原因になります。
利点
ビッグデータは、組織がデータをより適切に管理するのに役立ちます。これにより、メンバー(クライアントまたは市民)にとって新しい前向きまたは生産的な機会が特定されます。 そしてこれは、よりスマートで効率的な行動、時間/労力とお金の節約につながり、それはしばしば関係するすべての人の幸せにつながります。 ビッグデータを使用する場合、通常、次の方法で実行されるアクティビティに価値が追加されます。
- コスト削減: 大量のデータの保存と管理。
- 時間の短縮: 意思決定におけるより効率的かつ効果的。
- 新製品とサービス: ユーザー(クライアントおよび/または市民)のニーズと問題を測定および予測する機能により、ユーザーの満足度が向上します。
<font style="vertical-align: inherit;"><font style="vertical-align: inherit;">待遇
よく使用されるビッグデータは、多くの場合、障害、問題、および欠陥の根本原因をほぼリアルタイムで特定できます。 ただし、それを考慮に入れる必要があります ビッグデータテクノロジーはそれ自体が万能薬ではありません。 だから、次のような別の素晴らしい技術を引用する オラクル、 次のように追加できます。
«ビッグデータの価値を特定することは、それを分析することを意味するだけではありません(これはすでにそれ自体が利点です)。 これは、アナリスト、ビジネスユーザー、および経営幹部が適切な質問をし、パターンを特定し、十分な情報に基づいて決定を下し、行動を予測する必要がある発見プロセス全体です。」
ビッグデータ用のSL / CAアプリケーション
研究、テスト、および実装のために言及する価値のある無料のソフトウェアおよびオープンソースアプリケーションには、次のものがあります。
関連
- Apache Hadoop: Hadoop分散ファイルシステム(HDFS)、Hadoop MapReduce、およびHadoopCommonで構成されるオープンソースプラットフォーム。
- アブロ: シリアル化サービスを提供するApacheプロジェクト。
- カサンドラ: のストレージモデルに基づく分散型非リレーショナルデータベース、Javaで開発されました。
- チュクワ: イベントログの大規模な収集と分析のために設計されたソフトウェア。
- フルーム: 主なタスクがXNUMXつのソースから別の場所にデータを転送することであるソフトウェア。
- HBase: HDFSで実行される列データベース(列指向データベース)。
- ハイブ: 分散環境に保存されている大量のデータの管理を容易にする「データウェアハウス」インフラストラクチャ。
- Jaql: 大量の情報を処理するように設計されたJSON形式のデータの活用を可能にする機能的で宣言的な言語。
- ルセン: テキストのインデックス作成と検索のためのライブラリを提供するソフトウェア。
- Oozie: ワークフローと各プロセス間の調整を簡素化するオープンソースプロジェクト。
- 豚: Hadoopユーザーがすべてのデータセットの分析に集中し、MapReduceプログラムの構築に費やす時間を短縮できるソフトウェア。
- ZooKeeper: クラスタ全体のプロセスを確実にシリアル化または同期化するためにアプリケーションで使用できる一元化されたインフラストラクチャとサービス。
独立者
よく知られているが、オープンソースプラットフォームHadoopに関連していないその他のものは次のとおりです。
- Elasticsearch: フルテキストベースの検索および分析エンジン。
- MongoDB: ドキュメントデータモデルに基づくNoSQLデータベース。
- カサンドラ: NoSQLデータベース管理用に設計されたApacheオープンソースプロジェクト。
- CouchDB: 簡単なアクセスとさまざまなWeb互換性のための共通標準に基づくオープンソースのNoSQLデータベース。
- Solr: LuceneプロジェクトのJavaライブラリに基づくオープンソースの検索エンジン。
その他のRDBMSツール:MySQLClusterおよびVoltDB。
結論
私たちの現在の(そして次の)時間は、個別にではなく、全体として多くのことを言う必要のある、大量のデータに没頭または溺れています。 したがって、現在および近い将来にビッグデータテクノロジーを使用することで、人類全体である社会が、自分自身を発見するのに何年もかかる可能性のある無限の物(イベントまたは発明)を発見するのに役立ちます。 、これを使用せずに。
から ビッグデータとそのツールは十分な分析速度を提供します 得られた結果をすばやく分析し、必要な回数だけ短時間でやり直して、到達しようとしている真の値または最も近い値を見つけます。 ビッグデータのトピックがおもしろいと思った場合は、このレポートを読んでトピックをもう少し拡張できます。 BBVA.