AIスタートキャンプ13日目
2478 ワード
S1-WEEK3 Note 03 : Dimension Reduction
学習目標
Vector transformation
せんけいへんかん
任意の2つのベクトル加算またはスカラー乗算
行列を乗じてベクトル(データ)を別の位置に移動
Eigenvector / Eigenvalue
EigenVector(一意ベクトル)
与えられた変換では、方向のベクトルを変更せずにサイズのみが変更されます.
Eigenvalue(一意の値)
変化のサイズ=スカラー=一意の値
高度な問題
多数の特徴(100または1000以上)を持つデータセットをモデリングまたは解析する際に発生する様々な問題.
限られたソリューション:pairplot
変数の可能な組合せの散点図について
同じ変数の組み合わせのヒストグラム
図形は対角線に対して対称である->大量の不要な散点図
重要な機能をフィルタする必要がある->Dimension Reduction
その他の高機能の問題:オーバーフィット
機能の数がサンプル数以上の場合、オーバーフィットの問題が発生します.
Dimension Reduction
Feacture Selection
データセットからあまり重要でないフィーチャーを削除
Feature Extraction(Feature Engineeringと同様)
既存またはそれらの組合せに基づく機能の使用
PCAも機能拡張です
Feacture Selection
利点:選択したフィーチャーの分析が容易です.
欠点:特性間の相関を考慮する必要があります.
例:LASSO、Geneticアルゴリズムなど
Feature Extraction
利点:プロパティ間の相関を考慮します.多くのfeatureの数を減らすことができます
欠点:特徴を説明するのは難しい.
例:PCA、オートエンコーダ等
Principal Component Analysis (PCA)
高レベルデータの効率的な可視化とクラスタリング
元の高次元データ情報(分散)をできるだけ保持するベクトルを検索します.
データをベクトルに投影
データ分散度が最大のベクトル軸
データの投影(Linear)
PCA Process
多次元データを2 Dに折りたたむ
情報損失が最小になる2 Dの選択
各列
PCAは、高次元データ分散を保持する軸(PC)に基づいてデータを変換する
->一部のPCを使用範囲に絞ることができます
実際にsklearningライブラリを使用する
from sklearn.preprocessing import StandardScaler, Normalizer
from sklearn.decomposition import PCA
# Normalize
scaler = StandardScaler()
# Standardized Data
Z = scaler.fit_transform(X)
# 차원결정 (2차원)
pca = PCA(2)
pca.fit(X)
# Projected Data
B = pca.transform(X)
PCA特性
この場合、カーネルPCA
この場合、PLS
Reference
この問題について(AIスタートキャンプ13日目), 我々は、より多くの情報をここで見つけました https://velog.io/@ldy971215/코드스테이츠-AI-부트캠프-13일차テキストは自由に共有またはコピーできます。ただし、このドキュメントのURLは参考URLとして残しておいてください。
Collection and Share based on the CC Protocol