データ処理——データセット区分

953 ワード

データセット分割

 (train_set) (test_set)
  • トレーニングセット:トレーニングモデルに一般的に使用され、トレーニングのデータが代表的であることをできるだけ保証する必要がある.
  • テストセット:モデルをテストし、モデルの性能(実行時間、モデルの効果などを含む)を検出する
  • trian_test_split(*arrays,train_size,test_size,ramdom_state)
  • *arrays:分割が必要なデータを示し、複数の
  • train_size:トレーニングセットが総データに占める割合、0-1の浮動小数点数、デフォルトの
  • なし
  • test_size:テストセットが占める総データの割合とtrain_sizeは1に加算され、train_が記入されています.sizeの場合は
  • を省略できる
  • random_state:ランダムシードを設定し、後続の各分割の結果が同じ
  • であることを保証します.
    from sklearn.datasets import load_iris  #  
    from sklearn.model_selection import train_test_split
    
    iris = load_iris()
    X = iris['data']
    y = iris['target']
    X_train,X_test,y_train,y_test = train_test_split(X,y,train_size=0.8,random_state = 123)
    print(X_train.shape,X_test.shape,y_train.shape,y_test.shape)

    (120, 4) (30, 4) (120,) (30,)
    転載先:https://www.cnblogs.com/WoLykos/p/9564025.html