【pythonマシン学習】【残し方】データカット-sklearnのtrain_test_split


「小豚教室」の公衆番号に注目して、より多くのプログラミングテクニックの専門用語を理解するのが好きです.test_split関数は、マトリクスをランダムにトレーニングサブセットとテストサブセットに分割し、分割されたトレーニングセットテストセットサンプルとトレーニングセットテストセットラベルを返すために使用されます.
書式:
X_train,X_test, y_train, y_test =cross_validation.train_test_split(train_data,train_target,test_size=0.3, random_state=0)
パラメータの説明:
train_data:分割されたサンプルフィーチャーセット;検討するサンプル
train_target:分割されたサンプルラベル;分割するサンプルの結果
test_size:浮動小数点数の場合、0-1の間で、テストサンプルの割合を表します.整数ならサンプルの数です
random_state:乱数のシードです.
乱数シード:実はこのグループの乱数の番号で、繰り返し試験が必要な場合、同じ乱数を得ることを保証します.例えば、毎回1を記入し、他のパラメータが同じ場合、あなたが得たランダム配列は同じです.しかし、0を記入するか、記入しないかは、毎回違います.(私のテスト結果は0でも変わらない)
乱数の生成は、シード、乱数、シードの関係によって異なります.
種子が異なり、異なる乱数を生成する.シードは同じで、インスタンスが異なる場合でも同じ乱数を生成します.
>>> import numpy as np
>>> from sklearn.model_selection import train_test_split
# from sklearn.cross_validation import train_test_split  , 

>>> X, y = np.arange(10).reshape((5, 2)), range(5)
 #** **  reshape 
 
>>> X
array([[0, 1],
       [2, 3],
       [4, 5],
       [6, 7],
       [8, 9]])

>>> list(y)
[0, 1, 2, 3, 4]
>>>
>>> X_train, X_test, y_train, y_test = train_test_split(
...     X, y, test_size=0.33, random_state=42)
...
>>> X_train
array([[4, 5],
       [0, 1],
       [6, 7]])
>>> y_train
[2, 0, 3]
>>> X_test
array([[2, 3],
       [8, 9]])
>>> y_test
[1, 4]

好きなのは【子豚の教室】の公衆番号に注目してもっと多くのプログラミングの小さい技巧を理解することができます