のデータ(テキストor画像)前処理手法一覧 - 備忘録
1512 ワード
テキストデータ
- 特徴量選択
- 手動
- 類似する列項目の削除
- 関連性の低い列項目の削除
- 統計量ベース
- データの統計量を確認し、ラベルごとのデータ数の乖離を小さくする
- モデルベース
- RFE
- 日付データの処理
- 日付データをある時点からの経過時間のデータに変更する
- 例:2019/1/2, 2019/1/3, 2019/1/4というデータがある場合、20191/2を基準値として1とし、左から順に1,2,3とする
- カテゴリ変数のフラグ化
- one-hotエンコーディング
- 次元圧縮
- 多次元配列構造のデータの次元削減
- データの分散の変換(http://ailaby.com/scaler/)
- 標準化
- 列方向を基準に「平均が0、標準偏差が1」になるように変換
- 正規化
- 列方向を基準に「最低が0、最高が1」になるように変換
- 欠損値処理
- 欠損値補完
- 平均値で補完
- 中央値で補完
- 欠損値を含む行の削除
- 不均衡データへの対応
- オーバーサンプリング
- アンダーサンプリング
- SMOTE
画像データ
- 画像選択
- 画像全体に対して被写体の占める割合が低い画像の排除
- 被写体の分類ごとの全体に占める割合の調整(Weightの調整で対応することも可能だが、極端に差が出ないように調整する)
- 例1: 分類において、データセット全体の画像枚数に対する各ラベルの画像枚数の割合
- 例2: セグメンテーションにおいて、全体のピクセル数に対する各ラベルのピクセル数の占める割合
- ヒストグラム平坦化
- 次元圧縮
- 二値化
- 枚数の増幅
- 反転画像の作成
- 回転画像の作成
- 色相変換画像の作成
- 縮尺変換画像の作成
- 平滑化
- 手動
- 類似する列項目の削除
- 関連性の低い列項目の削除
- 統計量ベース
- データの統計量を確認し、ラベルごとのデータ数の乖離を小さくする
- モデルベース
- RFE
- 日付データをある時点からの経過時間のデータに変更する
- 例:2019/1/2, 2019/1/3, 2019/1/4というデータがある場合、20191/2を基準値として1とし、左から順に1,2,3とする
- one-hotエンコーディング
- 多次元配列構造のデータの次元削減
- 標準化
- 列方向を基準に「平均が0、標準偏差が1」になるように変換
- 正規化
- 列方向を基準に「最低が0、最高が1」になるように変換
- 欠損値補完
- 平均値で補完
- 中央値で補完
- 欠損値を含む行の削除
- オーバーサンプリング
- アンダーサンプリング
- SMOTE
- 画像選択
- 画像全体に対して被写体の占める割合が低い画像の排除
- 被写体の分類ごとの全体に占める割合の調整(Weightの調整で対応することも可能だが、極端に差が出ないように調整する)
- 例1: 分類において、データセット全体の画像枚数に対する各ラベルの画像枚数の割合
- 例2: セグメンテーションにおいて、全体のピクセル数に対する各ラベルのピクセル数の占める割合
- ヒストグラム平坦化
- 次元圧縮
- 二値化
- 枚数の増幅
- 反転画像の作成
- 回転画像の作成
- 色相変換画像の作成
- 縮尺変換画像の作成
- 平滑化
Author And Source
この問題について(のデータ(テキストor画像)前処理手法一覧 - 備忘録), 我々は、より多くの情報をここで見つけました https://qiita.com/y_kani/items/12691fcf0ee6acc53132著者帰属:元の著者の情報は、元のURLに含まれています。著作権は原作者に属する。
Content is automatically searched and collected through network algorithms . If there is a violation . Please contact us . We will adjust (correct author information ,or delete content ) as soon as possible .