AIスタートキャンプ13日目


S1-WEEK3 Note 03 : Dimension Reduction


学習目標

  • Vector transformation
  • eigenvector/eigenvalue
  • 上級問題
  • PCA (Principal Component Analysis)
  • Vector transformation


  • せんけいへんかん
    任意の2つのベクトル加算またはスカラー乗算

  • 行列を乗じてベクトル(データ)を別の位置に移動
  • 直線投影もベクトル変換です

    Eigenvector / Eigenvalue


  • EigenVector(一意ベクトル)
    与えられた変換では、方向のベクトルを変更せずにサイズのみが変更されます.

  • Eigenvalue(一意の値)
    変化のサイズ=スカラー=一意の値
  • 高度な問題


    多数の特徴(100または1000以上)を持つデータセットをモデリングまたは解析する際に発生する様々な問題.
  • データの可視化または閲覧が困難
  • モデリングにおけるオーバーフィット問題
  • 限られたソリューション:pairplot


    変数の可能な組合せの散点図について
    同じ変数の組み合わせのヒストグラム
    図形は対角線に対して対称である->大量の不要な散点図
    重要な機能をフィルタする必要がある->Dimension Reduction

    その他の高機能の問題:オーバーフィット


    機能の数がサンプル数以上の場合、オーバーフィットの問題が発生します.

    Dimension Reduction



  • Feacture Selection
    データセットからあまり重要でないフィーチャーを削除

  • Feature Extraction(Feature Engineeringと同様)
    既存またはそれらの組合せに基づく機能の使用
    PCAも機能拡張です
  • Feacture Selection


    利点:選択したフィーチャーの分析が容易です.
    欠点:特性間の相関を考慮する必要があります.
    例:LASSO、Geneticアルゴリズムなど

    Feature Extraction


    利点:プロパティ間の相関を考慮します.多くのfeatureの数を減らすことができます
    欠点:特徴を説明するのは難しい.
    例:PCA、オートエンコーダ等

    Principal Component Analysis (PCA)


    高レベルデータの効率的な可視化とクラスタリング
    元の高次元データ情報(分散)をできるだけ保持するベクトルを検索します.
    データをベクトルに投影
    データ分散度が最大のベクトル軸
    データの投影(Linear)

    PCA Process


    多次元データを2 Dに折りたたむ
    情報損失が最小になる2 Dの選択
    各列
  • から平均値を減算、標準偏差で正規化
  • を行う.
  • 分布計算空分布行列
  • 分散−空分行列の固有ベクトルと固有値
  • を計算する.
  • のデータを固有ベクトル上の
  • に投影する.
    PCAは、高次元データ分散を保持する軸(PC)に基づいてデータを変換する
    ->一部のPCを使用範囲に絞ることができます
    実際にsklearningライブラリを使用する
    from sklearn.preprocessing import StandardScaler, Normalizer
    from sklearn.decomposition import PCA
    
    # Normalize
    scaler = StandardScaler()
    
    # Standardized Data
    Z = scaler.fit_transform(X)
    
    # 차원결정 (2차원)
    pca = PCA(2)
    
    pca.fit(X)
    
    # Projected Data
    B = pca.transform(X)

    PCA特性

  • データの独立した軸を検索するために使用できます.
  • のデータ分布が不規則であれば、適用が困難である
    この場合、カーネルPCA
  • を用いることができる.
  • 分類/予測問題ではデータのラベルが考慮されていないため,効率的な分離が困難である.
    この場合、PLS
  • を用いることができる.