ノイズ除去/異常値処理

1595 ワード

異常値がモデルに及ぼす影響は比較的顕著である場合があり,ノイズ/異常値の除去は訓練結果の向上に有利である.重要なのは、異常値/ノイズとは何かを定義し、どのように彼を除去するかです.
業務理解分析によりノイズを除去する.
異常値検出:
異常点検出、異常点検出アルゴリズムを用いてサンプルを分析する:a.よく使われる異常点検出アルゴリズムは偏差検出、例えばクラスタリング、近隣などを含む.b.統計に基づく異常点検出アルゴリズム、例えば極差、四分位数間隔、平均差、標準差など;c.距離に基づく異常点検出アルゴリズムは、主に距離方法によって異常点を検出し、データセットと大部分の数点との間の距離がある閾値より大きい点を異常点と見なし、主に使用する距離測定方法は絶対距離(マンハッタン距離)、オーステナイト距離、マルテンサイト距離などの方法がある.
d.密度の異常点検出アルゴリズムに基づいて、現在の点の周囲密度を考察し、LOFアルゴリズムのような局所異常点を発見することができる.
e.その他の異常検出アルゴリズム、例えばIsolation Forestアルゴリズム.
実用的な可視化異常値検出方法:
 
#bivariate analysis saleprice/grlivarea
var = 'GrLivArea'
data = pd.concat([df_train['SalePrice'], df_train[var]], axis=1)
data.plot.scatter(x=var, y='SalePrice', ylim=(0,800000));