構文:
train_test_split(*arrays, **options)
タイプ:
sklearn.model_selection._splitの関数は,配列または行列をランダムな訓練とテストサブセットに分離する.
ショートカットユーティリティ、入力検証をカプセル化し、単一の分離操作を呼び出す(二選択サンプリングを選択可能)
ユーザーガイドでより多くの情報を読み込む
入力パラメータ
パラメータ名:*arrays タイプ:sequence of indexables with same length/shape[0]、同じ長さ/形状のインデックス可能なシーケンス[0]説明:入力は、リスト、numpy配列、scipyの疎行列、またはpandasのdataframesです. パラメータ名:test_size タイプ:float,int,None,optional では、浮動小数点数の場合、テストセットがデータセット全体に占める割合を表す0.0~1.0の範囲であることが示されています.int型の場合、テストセットのサンプルの絶対数を表します.Noneの場合、この値はどのトレーニングセットのサイズと同じに設定されます.デフォルトでは、この値は0.25で、デフォルト値はバージョン0.21で変更できます.トレーニングセットのサイズが指定されていない場合は、0.25を維持し続けます.そうしないと、指定されたトレーニングセットのサイズを使用して補充されます. パラメータ名:train_size タイプ:float,int,or None,default None では、浮動小数点数の場合、テストセットがデータセット全体に占める割合を表す0.0~1.0の範囲であることが示されています.int型であれば,訓練セットサンプルの絶対数を表す.Noneの場合、指定したテストセットのサイズ補完が使用されます. パラメータ名:random_state タイプ:int,RandomState instance or None,optional(default=None)説明:int、random_stateは乱数ジェネレータで使用されるシードです.ランダム状態インスタンスの場合random_stateは乱数発生器である.ない場合、乱数生成器はnpである.randomで使用されるランダム状態のインスタンス. パラメータ名:shuffle タイプ:boolean,optional(default=True)説明:分割前にデータをシャッフルするかどうか.shuffle=Falseの場合、階層はNoneでなければなりません. パラメータ名:stratify タイプ:array-like or None(default is None)説明:ない場合でなければ、データは階層的に区分され、これをクラスラベルとして使用します. 出力パラメータ:
パラメータ名:splitting タイプ:list,length=2*len(arrays)説明:入力されたトレーニングテストの分離を含むリスト. バージョン0.16の更新:入力が疎の場合、出力はscipyになります.sparse.csr_matrix.そうでなければ、出力タイプは入力タイプと同じになります.
例:
>>> import numpy as np
>>> from sklearn.model_selection import train_test_split
>>> X, y = np.arange(10).reshape((5, 2)), range(5)
>>> X
array([[0, 1],
[2, 3],
[4, 5],
[6, 7],
[8, 9]])
>>> list(y)
[0, 1, 2, 3, 4]
>>> X_train, X_test, y_train, y_test = train_test_split(
... X, y, test_size=0.33, random_state=42)
...
>>> X_train
array([[4, 5],
[0, 1],
[6, 7]])
>>> y_train
[2, 0, 3]
>>> X_test
array([[2, 3],
[8, 9]])
>>> y_test
[1, 4]
>>> train_test_split(y, shuffle=False)
[[0, 1, 2], [3, 4]]