Apache製品の各概要について(備忘録)

1159 ワード

Apache製品でデータ分析を行っていきたいのですが、
製品の種類を学び、それぞれの特徴を調べてから試してみようと思いました。
そのため、製品の情報を整理していきたいと考えております。

Hadoopについて

まずはHadoopからの紹介です。
量、速度、種類のような大量のデータを扱うアプリケーションに最適で、
ETL、データ分析、パターン認識、感情分析など幅広く活用可能です。

Hadoopでの分散処理は３つのシステムに対して何を使うか選定します。
・Processing(Apache spark, MapReduce )
・Resource Management(YARN, Apache Mesos, Spark Standalone)
・Storage(HDFS, Amazon S3, Apache Kudu)

HDFS

HDFSはHadoopの主記憶層であり、非常に多く扱われています。
データは格納時に分散され、みんなで分け与えて処理していこうというシステムです。

Apache Kudu

こちらは構造化データ用の分散カラム型(キーと値)ストレージ
ランダムアクセスとデータの更新が可能
HDFS上に構築されなく、SQLベースの分析が可能。
Clouderaさんが作成されました。

データ取り込みツールについて

・HDFS
　直接ファイルを転送

・Apache Sqoop 　
　RDBからHDFSへの高速インポート
　多くのデータストレージシステムに対応(MongoDB, Ocacle, MySQLなど)

・Apache Flume
　ストリーミングデータを取り込むための分散サービス
　複数のシステムからのイベントデータに最適(ログファイルなど)

・Apache Kafka
　高スループットでスケーラブルなメッセージングシステム
　分散型

Author And Source

この問題について(Apache製品の各概要について(備忘録)), 我々は、より多くの情報をここで見つけました https://qiita.com/shakemaru_kyoujuro/items/31946282dcdafe94cd27

著者帰属：元の著者の情報は、元のURLに含まれています。著作権は原作者に属する。

Content is automatically searched and collected through network algorithms . If there is a violation . Please contact us . We will adjust (correct author information ,or delete content ) as soon as possible .

IOフロー(2)

iOSデータの永続化:アーカイブ解除