のデータ(テキストor画像)前処理手法一覧 - 備忘録


テキストデータ

  • 特徴量選択
    • 手動
      • 類似する列項目の削除
      • 関連性の低い列項目の削除
    • 統計量ベース
      • データの統計量を確認し、ラベルごとのデータ数の乖離を小さくする
    • モデルベース
      • RFE
  • 日付データの処理
    • 日付データをある時点からの経過時間のデータに変更する
    • 例:2019/1/2, 2019/1/3, 2019/1/4というデータがある場合、20191/2を基準値として1とし、左から順に1,2,3とする
  • カテゴリ変数のフラグ化
    • one-hotエンコーディング
  • 次元圧縮
    • 多次元配列構造のデータの次元削減
  • データの分散の変換(http://ailaby.com/scaler/)
    • 標準化
      • 列方向を基準に「平均が0、標準偏差が1」になるように変換
    • 正規化
      • 列方向を基準に「最低が0、最高が1」になるように変換
  • 欠損値処理
    • 欠損値補完
      • 平均値で補完
      • 中央値で補完
    • 欠損値を含む行の削除
  • 不均衡データへの対応
    • オーバーサンプリング
    • アンダーサンプリング
    • SMOTE

画像データ

  • 画像選択
    • 画像全体に対して被写体の占める割合が低い画像の排除
    • 被写体の分類ごとの全体に占める割合の調整(Weightの調整で対応することも可能だが、極端に差が出ないように調整する)
      • 例1: 分類において、データセット全体の画像枚数に対する各ラベルの画像枚数の割合
      • 例2: セグメンテーションにおいて、全体のピクセル数に対する各ラベルのピクセル数の占める割合
  • ヒストグラム平坦化
  • 次元圧縮
    • 二値化
  • 枚数の増幅
    • 反転画像の作成
    • 回転画像の作成
    • 色相変換画像の作成
    • 縮尺変換画像の作成
  • 平滑化