データ処理——データセット区分

953 ワード

データセット分割

 （train_set） （test_set）

トレーニングセット:トレーニングモデルに一般的に使用され、トレーニングのデータが代表的であることをできるだけ保証する必要がある.

テストセット:モデルをテストし、モデルの性能(実行時間、モデルの効果などを含む)を検出する

trian_test_split(*arrays,train_size,test_size,ramdom_state)

*arrays:分割が必要なデータを示し、複数の

train_size:トレーニングセットが総データに占める割合、0-1の浮動小数点数、デフォルトの

なし

test_size:テストセットが占める総データの割合とtrain_sizeは1に加算され、train_が記入されています.sizeの場合は

を省略できる

random_state:ランダムシードを設定し、後続の各分割の結果が同じ

であることを保証します.

from sklearn.datasets import load_iris  #  
from sklearn.model_selection import train_test_split

iris = load_iris()
X = iris['data']
y = iris['target']
X_train,X_test,y_train,y_test = train_test_split(X,y,train_size=0.8,random_state = 123)
print(X_train.shape,X_test.shape,y_train.shape,y_test.shape)

(120, 4) (30, 4) (120,) (30,)
転載先:https://www.cnblogs.com/WoLykos/p/9564025.html

Chapter 22. Command:コマンドをクラスとして作成する

[PS]楽透の最高と最低(LV 1)