SimpleImputerにおけるfitとtransformメソッドの概要
sklearn.impute
.SimpleImputerにおけるfitとtransformメソッドの概要SimpleImputerの概要
SimpleImputerによって、現実データに欠落している値を同じ列の平均値、中央値、または衆数で補うことができ、ここでは平均値を例に挙げる.
fitメソッド
fit法により、他の欠落データマトリクスを埋め込む際に使用するために、マトリクス欠落の相関値の大きさを計算することができる.
import numpy as np
from sklearn.impute import SimpleImputer
imp = SimpleImputer(missing_values=np.nan, strategy='mean')
imp.fit([[1, 2], [np.nan, 3], [7, 6]])
配列の場合
1 2 n u l l 3 7 6\begin{matrix} 1 & 2\\null & 3\\7 & 6\\\end{matrix} 1null7236
imp.fit
を経た後、第1列の平均値は(1+7)/2=4
であり、第2列の平均値は(2+3+6)/3=3.6667
であった.X = [[np.nan, 2], [6, np.nan], [7, 6]]
print(imp.transform(X))
transformメソッド
その後、X行列が与えられ、
transform
法により変換される.n u l l 2 6 n u l l 7 6\begin{matrix} null & 2\\6 & null\\7 & 6\\\end{matrix} null672null6
充填第1の
null
は、前に計算された平均値4
であり、第2のnull
は、第2の列の平均値3.6667
であるfit_transformメソッド
一般に我々が実際に使用する場合,与えられたデータに対して
fit_transform
法を直接用いて計算および充填を行う.