sklearnデータセットランダム分割(train_test_split)

1860 ワード

データ・マイニング

スカラー学習

データセットXとカテゴリラベルyが与えられ、データセットを一定の割合で訓練セットとテストセットにランダムに分割する.

コード#コード#

#!/usr/bin/env python
# -*- coding: utf-8 -*-

"""  ：   ：2017 3 11  12:48:57 """

from sklearn.cross_validation import train_test_split

#  200 ， 100 100 1 2
X = [[u" ", u" 1 ", u" "]] * 100 + [[u" ", u" 2 ", u" "]] * 100
y = [1] * 100 + [2] * 100

#  20% 
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)
print len(X_train), len(X_test)

#  
for i in range(len(X_test)):
    print "".join(X_test[i]), y_test[i]

if __name__ == "__main__":
    pass

じっけんけっか

分割されたトレーニングセットとテストセットのラベルは依然として対応しています.

Python問題ライブラリ(コード作成)#25-28

【BAT】ロットテスト実行結果