マシンラーニングデータプリプロセッシング


データプリプロセッシング

  • データクリーニング
  • 欠落値処理(Null/NAN処理)
  • データ符号化(ラベル、熱符号化)
  • データスケーリング
  • 異常値を消去
  • 特徴選択、抽出、加工
  • いちじねつコーディング


    Thermal Encodingでは、フィーチャー値のタイプに応じて新しいフィーチャーが追加され、ユニークな値に対応するカラムにのみ1が表示され、残りのカラムには0が表示されます.

    pandasget dummies()を使用して熱符号化を行う
    pd.get_dummies(DataFrame)

    フィーチャーのスケーリング

  • 異なる単位の統一データ
  • 統合データ

  • 標準化は,データの各特徴を平均値0,分布1のGauss正規分布に変換する値である.


  • StandardScaler:正規分布に変換し、平均値0、超差1

  • 正規化は,異なる特徴の大きさを統一するために大きさを変換する概念である.


  • MinMaxScale:データ値を0~1の範囲値に変換します(負の値がある場合は-1から1に変換します).