大データ分析ノート——1
大データ計算アーキテクチャ
1、データ記憶システム
データストアシステムは、データ収集層(システムログ、ネットワーク爬虫、無線センサーネットワーク、モノのネットワーク、および各種データソース)を含み、データ洗浄、抽出とモデリング(様々なタイプの構造化、非構造化、異性データを標準的な記憶格データに変換し、データ属性とドメインを定義する)、データストアアーキテクチャ(集中型または分散型ファイルシステム、関係型データベースまたは分散型データベース、行格納データ構造または列格納データ構造、キー対構造、ハッシュテーブル(Hash Table)検索など)_; データストアアーキテクチャは大きなデータ計算の基礎であり、上位の各種分析アルゴリズム、計算モデル及び計算性能はデータ記憶システムの表現に依存しているので、データ記憶システムは大きなデータ研究の重要な領域である.
2、データ処理システム
データ処理システムは、異なるタイプのデータに対する計算モデル(例えば、非構造データに対するMapReduceバッチ処理モデル、動的データストリームに対するストリーム計算モデル、構造化データに対する大規模合併処理(MPP)モデル、物理的大メモリに基づく高性能メモリ計算(In-memoryCoputtingモデル)を含む.;アプリケーションニーズに対する各種データ分析アルゴリズム(回帰分析、集約アルゴリズム、関連規則アルゴリズム、決定ツリーアルゴリズム、ベ葉斯分析、マシン学習アルゴリズムなど)、データ計算処理を提供し、様々な開発ツールパッケージと実行サポート環境の計算プラットフォーム(Hadoop、Spark、Stormなど)を提供する.
3、データアプリケーションシステム
データアプリケーションシステムは、上述の記憶システムと計算処理プラットフォームに基づいて、各業界分野の大データ応用技術解決方案を提供する.
データ解析アルゴリズムの分類
1.回帰分析類
回帰アルゴリズムは、予測値と実際の結果との差を最小化することによって入力特徴との関係を得るアルゴリズムの一つである.一般的なアルゴリズムは以下の通りである.
は、最終的に作成されたモデルが元のデータサンプルのインスタンスに強い依存性を持つことを意味します.このようなアルゴリズムは、予測決定時には、一般的に、予測されたサンプルと元のサンプルとの類似度を比較して、それぞれの予測結果を提供します.一般的なアルゴリズムは以下の通りです.
決定樹類アルゴリズムは、元のデータの特徴に基づいて、多くの決定経路を含むツリーを構築します.予測段階の選択経路を決定します.一般的なアルゴリズムは以下の通りです.
とは分類と回帰の問題において、ベノスの原理を利用したアルゴリズムを含み、一般的なアルゴリズムは以下の通りである.
クラスターアルゴリズムは、データ分布構造のいくつかの法則を発見するために、いくつかの中心部を囲む「データーグループ」に入力サンプルを集めています.
関連する規則アルゴリズムは、トレーニングサンプル間の関連関係を最も説明できる規則、すなわちイベントと他のイベントとの間の依存または関連の知識を抽出しようとしています.一般的なアルゴリズムは以下の通りです.
これは人の脳神経元の働き方に啓発されて構築されたアルゴリズムです.ここで述べた人工神経ネットワークはより伝統的な知覚アルゴリズムに偏っています.
深さ学習は機械学習分野のアルゴリズムであり、上記アルゴリズムに比べて、より深いレベルとより複雑な構造がある.一般的なアルゴリズムは以下の通りである.
降下アルゴリズムはより少ない情報(より低い次元の情報)で元の情報の大部分をまとめて説明しようと試みています.多くの場合、データを先に処理して、主なアルゴリズムは以下の通りです.
_; モデル融合アルゴリズムは、最適化手段/戦略のようなものであり、通常は複数の簡単な弱マシン学習アルゴリズムを組み合わせてより信頼性の高い決定を行うものである.
データ前処理
データの前処理は、データ発掘の前に、まず原始データを必要な洗浄、統合、変換、離散、規約など一連の処理ツールを行い、掘削アルゴリズムに達して知識取得研究所に要求される最低仕様と基準を達成させることである.データ洗浄:欠損データの補填、ノイズ除去データなど.データ統合:すべてのデータを統一的にデータベース、データ倉庫またはファイルに格納し、完全なデータセットを形成する.このプロセスは主に冗長データを除去するために用いられる. 3)データ変換:主にデータを規格化し、例えばデータ値を特定の範囲に限定する. 4)データルール:システムの重要な特徴を描写できないデータを除外する.重要な特徴を記述できるデータ属性のセットのみを保持します.
1、データ洗浄
データ洗浄技術の研究は、最初に米国の社会保険番号を訂正することから始まった.データセットを異常検出する .データオブジェクトのデフラグ による欠落データの洗浄(近似値置換欠落値) 2、ノイズ除去データ
ノイズデータは、ランダムエラーまたは偏差による孤立データのセットです.ノイズデータを除去する主な方法は、コンテナ分け方法です.箱分け方法は、データの周辺のデータ値を処理する予定です.平滑化に必要なデータです.具体的には、「箱平均値で平滑化」と「箱境界で平滑化」に分けられます.
参考:[1]『ビッグデータ分析と計算』湯羽/林迪/范愛華清華大学出版社[2]『データ倉庫によるデータ洗浄方法研究』周芝芬
1、データ記憶システム
データストアシステムは、データ収集層(システムログ、ネットワーク爬虫、無線センサーネットワーク、モノのネットワーク、および各種データソース)を含み、データ洗浄、抽出とモデリング(様々なタイプの構造化、非構造化、異性データを標準的な記憶格データに変換し、データ属性とドメインを定義する)、データストアアーキテクチャ(集中型または分散型ファイルシステム、関係型データベースまたは分散型データベース、行格納データ構造または列格納データ構造、キー対構造、ハッシュテーブル(Hash Table)検索など)_; データストアアーキテクチャは大きなデータ計算の基礎であり、上位の各種分析アルゴリズム、計算モデル及び計算性能はデータ記憶システムの表現に依存しているので、データ記憶システムは大きなデータ研究の重要な領域である.
2、データ処理システム
データ処理システムは、異なるタイプのデータに対する計算モデル(例えば、非構造データに対するMapReduceバッチ処理モデル、動的データストリームに対するストリーム計算モデル、構造化データに対する大規模合併処理(MPP)モデル、物理的大メモリに基づく高性能メモリ計算(In-memoryCoputtingモデル)を含む.;アプリケーションニーズに対する各種データ分析アルゴリズム(回帰分析、集約アルゴリズム、関連規則アルゴリズム、決定ツリーアルゴリズム、ベ葉斯分析、マシン学習アルゴリズムなど)、データ計算処理を提供し、様々な開発ツールパッケージと実行サポート環境の計算プラットフォーム(Hadoop、Spark、Stormなど)を提供する.
3、データアプリケーションシステム
データアプリケーションシステムは、上述の記憶システムと計算処理プラットフォームに基づいて、各業界分野の大データ応用技術解決方案を提供する.
データ解析アルゴリズムの分類
1.回帰分析類
回帰アルゴリズムは、予測値と実際の結果との差を最小化することによって入力特徴との関係を得るアルゴリズムの一つである.一般的なアルゴリズムは以下の通りである.
1) Ordinary Least Squares Regression(OLSR)
2)Linear Regression
3)Logistic Regression
4)Stepwise Regression
5)Locally Estimated Scatterplot Smoothing(LOESS)
6)Multivariate Adaptive Regression Splines(MARS)
2.例に基づくアルゴリズムは、最終的に作成されたモデルが元のデータサンプルのインスタンスに強い依存性を持つことを意味します.このようなアルゴリズムは、予測決定時には、一般的に、予測されたサンプルと元のサンプルとの類似度を比較して、それぞれの予測結果を提供します.一般的なアルゴリズムは以下の通りです.
1)k-Nearest Neighbour (kNN)
2)Learning Vector Quantization (LVQ)
3)Self-Organizing Map (SOM)
4)Locally Weighted Learning (LWL)
3.決定ツリーアルゴリズム決定樹類アルゴリズムは、元のデータの特徴に基づいて、多くの決定経路を含むツリーを構築します.予測段階の選択経路を決定します.一般的なアルゴリズムは以下の通りです.
1) Classification and Regression Tree (CART)
2) Iterative Dichotomiser 3 (1D3)
3) C4.5 and C5.O (different versions of a powerful approach)
4) Chi-squared Automatic Interaction Detection (CHAID)
5) Conditional Decision Trees
4.ベジェ類アルゴリズムとは分類と回帰の問題において、ベノスの原理を利用したアルゴリズムを含み、一般的なアルゴリズムは以下の通りである.
1) Naive Bayes
2) Gaussian Naive Bayes
3) Multinomial Naive Bayes
4) Averaged One-Dependence Estimators (AODE)
5) Bayesian Belief Network (BBN)
6) Bayesian Network (BN)
5.クラスターアルゴリズムクラスターアルゴリズムは、データ分布構造のいくつかの法則を発見するために、いくつかの中心部を囲む「データーグループ」に入力サンプルを集めています.
1) K-means
2) Hierarchical Clustering
3) Expectation Maximization (EM)
6.関連規則アルゴリズム関連する規則アルゴリズムは、トレーニングサンプル間の関連関係を最も説明できる規則、すなわちイベントと他のイベントとの間の依存または関連の知識を抽出しようとしています.一般的なアルゴリズムは以下の通りです.
1) Apriori algorithm
2) Eclat algorithm
7.人工神経ネットワーク類のアルゴリズムこれは人の脳神経元の働き方に啓発されて構築されたアルゴリズムです.ここで述べた人工神経ネットワークはより伝統的な知覚アルゴリズムに偏っています.
1) Perceptron
2) back-Propagation
3) Radial Basis Function Network (RBFN)
8.深度学習深さ学習は機械学習分野のアルゴリズムであり、上記アルゴリズムに比べて、より深いレベルとより複雑な構造がある.一般的なアルゴリズムは以下の通りである.
1) Deep Boltzmann Machine (DBM)
2) Deep Belief Networks (DBN)
3) Convolutional Neural Network (CNN)
4) Stacked Auto-Encoders
9.次元ダウンアルゴリズム降下アルゴリズムはより少ない情報(より低い次元の情報)で元の情報の大部分をまとめて説明しようと試みています.多くの場合、データを先に処理して、主なアルゴリズムは以下の通りです.
1) Principal Component Analysis (PCA)
2) Principal Component Regression (PCR)
3) Partial Least Squares Regression (PLSR)
4) Sammon Mapping
5) Multidimensional Scaling (MDS)
6) Linear Discriminant Analysis (LDA)
7) Mixture Discriminant Analysis (MDA)
8) Quadratic Discriminant Analysis (QDA)
9) Flexible Discriminant Analysis (FDA)
10.モデル融合アルゴリズム_; モデル融合アルゴリズムは、最適化手段/戦略のようなものであり、通常は複数の簡単な弱マシン学習アルゴリズムを組み合わせてより信頼性の高い決定を行うものである.
1) Random Forest
2) Boosting
3) Bootstrapped Aggregation (Bagging)
4) AdaBoost
5) Stacked Generalization (blending)
6) Gradient Boosting Machines (GBM)
7) Gradient Boosted Regression Trees (GBRT)
他のビッグデータの計算はまた、予測アルゴリズム(遺伝的アルゴリズムBPなど)、推薦アルゴリズム(PageRank、EdgeRank、共同フィルタリング)などが含まれる.データ前処理
データの前処理は、データ発掘の前に、まず原始データを必要な洗浄、統合、変換、離散、規約など一連の処理ツールを行い、掘削アルゴリズムに達して知識取得研究所に要求される最低仕様と基準を達成させることである.データ洗浄:欠損データの補填、ノイズ除去データなど.データ統合:すべてのデータを統一的にデータベース、データ倉庫またはファイルに格納し、完全なデータセットを形成する.このプロセスは主に冗長データを除去するために用いられる. 3)データ変換:主にデータを規格化し、例えばデータ値を特定の範囲に限定する. 4)データルール:システムの重要な特徴を描写できないデータを除外する.重要な特徴を記述できるデータ属性のセットのみを保持します.
1、データ洗浄
データ洗浄技術の研究は、最初に米国の社会保険番号を訂正することから始まった.
ノイズデータは、ランダムエラーまたは偏差による孤立データのセットです.ノイズデータを除去する主な方法は、コンテナ分け方法です.箱分け方法は、データの周辺のデータ値を処理する予定です.平滑化に必要なデータです.具体的には、「箱平均値で平滑化」と「箱境界で平滑化」に分けられます.
参考:[1]『ビッグデータ分析と計算』湯羽/林迪/范愛華清華大学出版社[2]『データ倉庫によるデータ洗浄方法研究』周芝芬