SimpleImputerにおけるfitとtransformメソッドの概要


sklearn.impute .SimpleImputerにおけるfitとtransformメソッドの概要
SimpleImputerの概要
SimpleImputerによって、現実データに欠落している値を同じ列の平均値、中央値、または衆数で補うことができ、ここでは平均値を例に挙げる.
fitメソッド
fit法により、他の欠落データマトリクスを埋め込む際に使用するために、マトリクス欠落の相関値の大きさを計算することができる.

import numpy as np
from sklearn.impute import SimpleImputer
imp = SimpleImputer(missing_values=np.nan, strategy='mean')
imp.fit([[1, 2], [np.nan, 3], [7, 6]])


配列の場合
1 2 n u l l 3 7 6\begin{matrix} 1 & 2\\null & 3\\7 & 6\\\end{matrix} 1null7​236​ imp.fitを経た後、第1列の平均値は(1+7)/2=4であり、第2列の平均値は(2+3+6)/3=3.6667であった.
X = [[np.nan, 2], [6, np.nan], [7, 6]]
print(imp.transform(X))

transformメソッド
その後、X行列が与えられ、transform法により変換される.
n u l l 2 6 n u l l 7 6\begin{matrix} null & 2\\6 & null\\7 & 6\\\end{matrix} null67​2null6​
充填第1のnullは、前に計算された平均値4であり、第2のnullは、第2の列の平均値3.6667である
fit_transformメソッド
一般に我々が実際に使用する場合,与えられたデータに対してfit_transform法を直接用いて計算および充填を行う.