前処理

1228 ワード

プリプロセッシング
前処理
広範囲のデータクリーンアップ
- 필요없는 데이터를 지우고 필요한 데이터만을 취하는 것.
- null 값이 있는 행을 삭제하는 것
- 정규화(Normalization)
- 표준화(Standardization) 등 많은 작업들을 포함.
正規化
データの範囲を0~1にします.

X’=XX最小X最大XFRac{X-X{最小}{X最大}-X{最小}X’=X最大\X最小X\X最小X\X最小X

데이터 중에서 가장 작은 값을 0으로 만들고,
가장 큰 값을 1로 만든다.
標準化
データの分布を正規分布に変換します.

X'=XX平均X標準偏差X'=frac{X-X{平均}{X{標準偏差}X'=X標準偏差XX平均値

 즉 데이터의 평균이 0이 되도록하고 표준편차가 1이 되도록 만들어준다.
일단 데이터의 평균을 0으로 만들어주면 데이터의 중심이 0에 
맞춰지게(Zero-centered) 된다. 
그리고 표준편차를 1로 만들어 주면 데이터가 예쁘게 
정규화(Normalized) 된다. 
이렇게 표준화를 시키게 되면 일반적으로 
학습 속도(최저점 수렴 속도)가 빠르고, 
Local minima에 빠질 가능성이 적다.

標準化と標準化の違い