[訳]train_test_split()


  • sklearn.model_selection.train_test_split(*arrays, **options)

    公式ドキュメントは、配列またはマトリクスをランダムにトレーニングサブセットおよびテストサブセットに分割します.
  • Parameters


    Parameters
    データ型
    意味
    *arrays
    sequence of indexables with same length/shape[0]
    未分割データセット
    test_size
    float, int or None, optional (default=None)
    float:比例を表すint:絶対数を表すNone:0.25を表す
    train_size
    float, int, or None, (default=None)
    同様に、Noneはtestの補完を表す
    random_state
    int, RandomState instance or None, optional (default=None)
    int:乱数生成器のシードRandomState:乱数生成器None:np.randomで使用されるジェネレータの例は、ここでのジェネレータに使用されます.
    shuffle
    boolean, optional (default=True)
    再分割前にデータ混練を行うかどうかにかかわらず、FalseであればstratifyはNoneのみ
    stratify
    array-like or None (default=None)
    Noneでない場合、データは階層型に分割され、stratify=yなどのlabelsのカテゴリになります.
    乱数生成器シード(seed uesd by the random number generator)については、乱数生成プロセスのレコードとして理解され、シードが同じであれば生成器が生成する乱数が同じである.Return:train-testを含むlist.入力がsparseの場合、出力はscipy.sparse.csr_matrixで、そうでない場合は入力タイプと同じです.
  • Examples

  • >>> import numpy as np
    >>> from sklearn.model_selection import train_test_split
    >>> X, y = np.arange(10).reshape((5, 2)), range(5)
    >>> X
    array([[0, 1],
           [2, 3],
           [4, 5],
           [6, 7],
           [8, 9]])
    >>> list(y)
    [0, 1, 2, 3, 4]
    

    >>>
    >>> X_train, X_test, y_train, y_test = train_test_split(
    ...     X, y, test_size=0.33, random_state=42)
    ...
    >>> X_train
    array([[4, 5],
           [0, 1],
           [6, 7]])
    >>> y_train
    [2, 0, 3]
    >>> X_test
    array([[2, 3],
           [8, 9]])
    >>> y_test
    [1, 4]
    

    >>>
    >>> train_test_split(y, shuffle=False)
    [[0, 1, 2], [3, 4]]