【データサイエンス備忘録】 欠損値の取り扱い 【python】


欠損値の有無を確認する。

isnull()関数を使用する。
DataFrameが代入された変数.isnull()
もし欠損値が含まれていればTrue、含まれていなければFalseとなる。

欠損値の個数を確認する

isnull()関数とsum()関数を使用する。
DataFrameが代入された変数.isnull().sum()

欠損値の削除

dropna()関数を使用する。
DataFrameが代入された変数.dropna()
dropna()関数を利用した後は、別の変数に代入するか、inplace=Trueというdropnaの引数を付け加え、実行したらそのまま変数を書き換える。

  1. data = data.dropna()
  2. data.dropna(inplace=True)
  3. data = data.dropna(inplace=True)

特定のカラムが欠損値を含むデータを削除する場合は、
DataFrame.dropna(subset=[‘カラム名’])

欠損値の補完

fillna()関数で特定のカラムの欠損値をある値で補完する。
DataFrameを代入した変数['カラム'].fillna(値)

fillna()関数で特定のカラムの欠損値をある値で補完する。
DataFrameを代入した変数['カラム'].fillna(値)

特定のカラムをそのカラムの平均値で補完する。
DataFrameを代入した変数['カラム'].fillna(np.mean(DataFrameを代入した変数['カラム']), inplace=True)

特定のカラムをそのカラムの中央値で補完する。
DataFrameを代入した変数['カラム'].fillna(DataFrameを代入した変数['カラム'].median(), inplace=True)