sklearnのtrain_test_split関数


構文:


  train_test_split(*arrays, **options)

タイプ:


  sklearn.model_selection._splitの関数は,配列または行列をランダムな訓練とテストサブセットに分離する.
 ショートカットユーティリティ、入力検証をカプセル化し、単一の分離操作を呼び出す(二選択サンプリングを選択可能)
ユーザーガイドでより多くの情報を読み込む

入力パラメータ

  • パラメータ名:*arrays
  • タイプ:sequence of indexables with same length/shape[0]、同じ長さ/形状のインデックス可能なシーケンス[0]
  • 説明:入力は、リスト、numpy配列、scipyの疎行列、またはpandasのdataframesです.
  • パラメータ名:test_size
  • タイプ:float,int,None,optional
  • では、浮動小数点数の場合、テストセットがデータセット全体に占める割合を表す0.0~1.0の範囲であることが示されています.int型の場合、テストセットのサンプルの絶対数を表します.Noneの場合、この値はどのトレーニングセットのサイズと同じに設定されます.デフォルトでは、この値は0.25で、デフォルト値はバージョン0.21で変更できます.トレーニングセットのサイズが指定されていない場合は、0.25を維持し続けます.そうしないと、指定されたトレーニングセットのサイズを使用して補充されます.
  • パラメータ名:train_size
  • タイプ:float,int,or None,default None
  • では、浮動小数点数の場合、テストセットがデータセット全体に占める割合を表す0.0~1.0の範囲であることが示されています.int型であれば,訓練セットサンプルの絶対数を表す.Noneの場合、指定したテストセットのサイズ補完が使用されます.
  • パラメータ名:random_state
  • タイプ:int,RandomState instance or None,optional(default=None)
  • 説明:int、random_stateは乱数ジェネレータで使用されるシードです.ランダム状態インスタンスの場合random_stateは乱数発生器である.ない場合、乱数生成器はnpである.randomで使用されるランダム状態のインスタンス.
  • パラメータ名:shuffle
  • タイプ:boolean,optional(default=True)
  • 説明:分割前にデータをシャッフルするかどうか.shuffle=Falseの場合、階層はNoneでなければなりません.
  • パラメータ名:stratify
  • タイプ:array-like or None(default is None)
  • 説明:ない場合でなければ、データは階層的に区分され、これをクラスラベルとして使用します.

  • 出力パラメータ:

  • パラメータ名:splitting
  • タイプ:list,length=2*len(arrays)
  • 説明:入力されたトレーニングテストの分離を含むリスト.

  •  バージョン0.16の更新:入力が疎の場合、出力はscipyになります.sparse.csr_matrix.そうでなければ、出力タイプは入力タイプと同じになります.

    例:

    >>> import numpy as np
    >>> from sklearn.model_selection import train_test_split
    >>> X, y = np.arange(10).reshape((5, 2)), range(5)
    >>> X
    array([[0, 1],
           [2, 3],
           [4, 5],
           [6, 7],
           [8, 9]])
    >>> list(y)
    [0, 1, 2, 3, 4]
    >>> X_train, X_test, y_train, y_test = train_test_split(
    ...     X, y, test_size=0.33, random_state=42)
    ...
    >>> X_train
    array([[4, 5],
           [0, 1],
           [6, 7]])
    >>> y_train
    [2, 0, 3]
    >>> X_test
    array([[2, 3],
           [8, 9]])
    >>> y_test
    [1, 4]
    >>> train_test_split(y, shuffle=False)
    [[0, 1, 2], [3, 4]]