sklearnランダム分割トレーニングセットとテストセット関数train_test_split


train_test_splitはクロス検証でよく使われる関数で、train dataとtestdataをサンプルからランダムに比例して選択します.形式は次のとおりです.
X_train,X_test, y_train, y_test =
cross_validation.train_test_split(train_data,train_target,test_size=0.4, random_state=0)
  • パラメータ解釈:
  • train_data:区分するサンプルフィーチャーセット
    train_target:分割するサンプル結果
    test_size:サンプルの割合、整数ならサンプルの数
    random_state:乱数のシードです.
    乱数シード:実はこのグループの乱数の番号で、繰り返し試験が必要な場合、同じ乱数を得ることを保証します.例えば、毎回1を記入し、他のパラメータが同じ場合、あなたが得たランダム配列は同じです.しかし、0を記入するか、記入しないかは、毎回違います.
    乱数の生成は、シード、乱数、シードの関係によって異なります.
    種子が異なり、異なる乱数を生成する.シードは同じで、インスタンスが異なる場合でも同じ乱数を生成します.
    from sklearn.cross_validation import train_test_split  
    from sklearn.model_selection import train_test_split
    train= loan_data.iloc[0: 55596, :]  
    test= loan_data.iloc[55596:, :]  
    #  , , 20%, (random_state)  
    train_X,test_X, train_y, test_y = train_test_split(train,  
                                                       target,  
                                                       test_size = 0.2,  
                                                       random_state = 0)  
    train_y= train_y['label']  
    test_y= test_y['label']