sklearnデータセットランダム分割(train_test_split)
1860 ワード
スカラー学習
データセットXとカテゴリラベルyが与えられ、データセットを一定の割合で訓練セットとテストセットにランダムに分割する.
コード#コード#
#!/usr/bin/env python
# -*- coding: utf-8 -*-
""" : :2017 3 11 12:48:57 """
from sklearn.cross_validation import train_test_split
# 200 , 100 100 1 2
X = [[u" ", u" 1 ", u" "]] * 100 + [[u" ", u" 2 ", u" "]] * 100
y = [1] * 100 + [2] * 100
# 20%
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)
print len(X_train), len(X_test)
#
for i in range(len(X_test)):
print "".join(X_test[i]), y_test[i]
if __name__ == "__main__":
pass
じっけんけっか
分割されたトレーニングセットとテストセットのラベルは依然として対応しています.