AIスタートキャンプ13日目

2478 ワード

S1-WEEK3 Data Science テキストリンク

S1-WEEK3 Note 03 : Dimension Reduction

学習目標

Vector transformation

eigenvector/eigenvalue

上級問題

PCA (Principal Component Analysis)

Vector transformation

せんけいへんかん
任意の2つのベクトル加算またはスカラー乗算

行列を乗じてベクトル(データ)を別の位置に移動

直線投影もベクトル変換です

Eigenvector / Eigenvalue

EigenVector(一意ベクトル)
与えられた変換では、方向のベクトルを変更せずにサイズのみが変更されます.

Eigenvalue(一意の値)
変化のサイズ=スカラー=一意の値

高度な問題

多数の特徴(100または1000以上)を持つデータセットをモデリングまたは解析する際に発生する様々な問題.

データの可視化または閲覧が困難

モデリングにおけるオーバーフィット問題

限られたソリューション:pairplot

変数の可能な組合せの散点図について
同じ変数の組み合わせのヒストグラム
図形は

対角線に対して対称である->大量の不要な散点図
重要な機能をフィルタする必要がある->Dimension Reduction

その他の高機能の問題:オーバーフィット

機能の数がサンプル数以上の場合、オーバーフィットの問題が発生します.

Dimension Reduction

Feacture Selection
データセットからあまり重要でないフィーチャーを削除

Feature Extraction(Feature Engineeringと同様)
既存またはそれらの組合せに基づく機能の使用
PCAも機能拡張です

Feacture Selection

利点:選択したフィーチャーの分析が容易です.
欠点:特性間の相関を考慮する必要があります.
例:LASSO、Geneticアルゴリズムなど

Feature Extraction

利点:プロパティ間の相関を考慮します.多くのfeatureの数を減らすことができます
欠点:特徴を説明するのは難しい.
例:PCA、オートエンコーダ等

Principal Component Analysis (PCA)

高レベルデータの効率的な可視化とクラスタリング
元の高次元データ情報(分散)をできるだけ保持するベクトルを検索します.
データをベクトルに投影
データ分散度が最大のベクトル軸
データの投影(Linear)

PCA Process

多次元データを2 Dに折りたたむ
情報損失が最小になる2 Dの選択
各列

から平均値を減算、標準偏差で正規化

を行う.

分布計算空分布行列

分散−空分行列の固有ベクトルと固有値

を計算する.

のデータを固有ベクトル上の

に投影する.
PCAは、高次元データ分散を保持する軸(PC)に基づいてデータを変換する
->一部のPCを使用範囲に絞ることができます
実際にsklearningライブラリを使用する

from sklearn.preprocessing import StandardScaler, Normalizer
from sklearn.decomposition import PCA

# Normalize
scaler = StandardScaler()

# Standardized Data
Z = scaler.fit_transform(X)

# 차원결정 (2차원)
pca = PCA(2)

pca.fit(X)

# Projected Data
B = pca.transform(X)

PCA特性

データの独立した軸を検索するために使用できます.

のデータ分布が不規則であれば、適用が困難である
この場合、カーネルPCA

を用いることができる.

分類/予測問題ではデータのラベルが考慮されていないため,効率的な分離が困難である.
この場合、PLS

を用いることができる.

Reference

この問題について(AIスタートキャンプ13日目), 我々は、より多くの情報をここで見つけました https://velog.io/@ldy971215/코드스테이츠-AI-부트캠프-13일차

テキストは自由に共有またはコピーできます。ただし、このドキュメントのURLは参考URLとして残しておいてください。

Collection and Share based on the CC Protocol

goソース読書ノート(math.4)

TIL 75 | TS Advanced