sklearnデータセットランダム分割(train_test_split)


スカラー学習


データセットXとカテゴリラベルyが与えられ、データセットを一定の割合で訓練セットとテストセットにランダムに分割する.

コード#コード#

#!/usr/bin/env python # -*- coding: utf-8 -*- """ : :2017 3 11 12:48:57 """ from sklearn.cross_validation import train_test_split # 200 , 100 100 1 2 X = [[u" ", u" 1 ", u" "]] * 100 + [[u" ", u" 2 ", u" "]] * 100 y = [1] * 100 + [2] * 100 # 20% X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2) print len(X_train), len(X_test) # for i in range(len(X_test)): print "".join(X_test[i]), y_test[i] if __name__ == "__main__": pass
  • 1
  • じっけんけっか


    分割されたトレーニングセットとテストセットのラベルは依然として対応しています.