仮定性能を検証するためにNull値を生成


仮定性能を検証するためにNull値を生成

  • Training setに空の値がなく、test setに空の値しか存在しない場合は、test setにどの埋め込みが良いか分かりません.

  • この場合、null値はトレーニングセットで生成され、パフォーマンス比較が行われ、テストセットが充填されます.
    Ex:Testing set column 3には15%のNull値が存在します.
  • train test splitを使用して空の値を作成する
    Import Library
    # import library
    from sklearn.model_selection import train_test_split
    Split to nonNull and null X and y
    X_nonNull, X_null, y_nonNull, y_null = train_test_split(X, y, test_size=0.15, random_state=42)
    Generate Null Value
    X_null['column_3'] = np.nan
    Concat nonNull and null Data Sets
    # concat
    X = pd.concat([X_nonNull, X_null])
    # reordered by index
    X = X.sort_index(ascending=True)
    充填は
  • の後で行い、性能比較はK倍で行うことができる.