データセットの分割方法

1175 ワード

  • train_splitメソッド:1)インポートパッケージ:from sklearn.model_selection import train_test_split 2)関数紹介:train_split(*arrays,test_size,train_size,random_state,shuffle,stratify)3)パラメータ紹介:a.*arrays:b.test_size:テストセットが総データセットに占める割合、デフォルトは0.25 c.train_size:トレーニングセットが全体のデータセットに占める割合、デフォルトはNoneで、全体のデータセットがテストセットの一部を除去したことを示すd.random_state:(他のパラメータは同じ)1に設定した場合のみ、実行時に区分されるテストセットとトレーニングセットは同じです.0に設定するか、設定しないかで、分割ごとに異なります.e.shuffle:booleanタイプ、デフォルトはTrueで、データセットを切断する前にデータを乱すかどうかを示します.shuffle=Falseの場合、stratifyはNoneでなければなりません.f.stratify:デフォルトはNoneであり、値がNoneでない場合、データ・セットを表す階層的に切断されます.
  • ShuffleSplitメソッド:1)インポートパッケージ:from sklearn.model_selection import ShuffleSplit 2)関数紹介:ShuffleSplit(n_splits=10,test_size='default’,train_size=None,random_state=None)3)パラメータ紹介:a.n_splits:訓練セット、テストセットを区分した回数を表し、デフォルトは10 b.test_size:テストセットが総データセットに占める割合、デフォルトは0.1 c.train_size:トレーニングセットが全体のデータセットに占める割合、デフォルトはNoneで、全体のデータセットがテストセットの一部を除去したことを示すd.random_state:(他のパラメータは同じ)1に設定した場合のみ、実行時に区分されるテストセットとトレーニングセットは同じです.0に設定するか、設定しないかで、分割ごとに異なります.4)例:
  •  `rs = ShuffleSplit(n_splits=5, test_size=0.2, random_state=0)
    

    n_splits=5は5回を表し、test_size=0.2は5割引を表すため、上記は5回5割引交差検証