[訳]train_test_split()
8553 ワード
sklearn.model_selection.train_test_split(*arrays, **options)
公式ドキュメントは、配列またはマトリクスをランダムにトレーニングサブセットおよびテストサブセットに分割します.Parameters
Parameters
データ型
意味
*arrays
sequence of indexables with same length/shape[0]
未分割データセット
test_size
float, int or None, optional (default=None)
float:比例を表すint:絶対数を表すNone:0.25を表す
train_size
float, int, or None, (default=None)
同様に、Noneはtestの補完を表す
random_state
int, RandomState instance or None, optional (default=None)
int:乱数生成器のシードRandomState:乱数生成器None:np.randomで使用されるジェネレータの例は、ここでのジェネレータに使用されます.
shuffle
boolean, optional (default=True)
再分割前にデータ混練を行うかどうかにかかわらず、FalseであればstratifyはNoneのみ
stratify
array-like or None (default=None)
Noneでない場合、データは階層型に分割され、stratify=yなどのlabelsのカテゴリになります.
乱数生成器シード(seed uesd by the random number generator)については、乱数生成プロセスのレコードとして理解され、シードが同じであれば生成器が生成する乱数が同じである.Return:train-testを含むlist.入力がsparseの場合、出力は
scipy.sparse.csr_matrix
で、そうでない場合は入力タイプと同じです.Examples
>>> import numpy as np
>>> from sklearn.model_selection import train_test_split
>>> X, y = np.arange(10).reshape((5, 2)), range(5)
>>> X
array([[0, 1],
[2, 3],
[4, 5],
[6, 7],
[8, 9]])
>>> list(y)
[0, 1, 2, 3, 4]
>>>
>>> X_train, X_test, y_train, y_test = train_test_split(
... X, y, test_size=0.33, random_state=42)
...
>>> X_train
array([[4, 5],
[0, 1],
[6, 7]])
>>> y_train
[2, 0, 3]
>>> X_test
array([[2, 3],
[8, 9]])
>>> y_test
[1, 4]
>>>
>>> train_test_split(y, shuffle=False)
[[0, 1, 2], [3, 4]]