7.2データのロードとカット

1763 ワード

7.2.1データロード
データ解析はまずデータをロードします.一般的にはNumPyの配列やPandsのDataFrameなどのデータ構造を使ってデータを保存します.コード例:
import numpy as np
X = np.random.random((10,5))
y = np.array(['M','M','F','F','M','F','M','M','F','F','F'])
X[X < 0.7] = 0
以上のコードでは、マトリックスXは10行5列のデータセットを表し、X元素のうち0.7未満の値を0に設定し、ベクトルyは属性ラベルを表し、それぞれの結果が
array([[ 0.        ,  0.        ,  0.99279061,  0.        ,  0.        ],
       [ 0.        ,  0.        ,  0.        ,  0.        ,  0.        ],
       [ 0.        ,  0.75228332,  0.        ,  0.        ,  0.        ],
       [ 0.        ,  0.        ,  0.        ,  0.        ,  0.        ],
       [ 0.        ,  0.96809177,  0.        ,  0.        ,  0.        ],
       [ 0.73956947,  0.        ,  0.83682458,  0.82550419,  0.7967034 ],
       [ 0.94029749,  0.        ,  0.        ,  0.        ,  0.        ],
       [ 0.        ,  0.86847999,  0.84031636,  0.88293549,  0.75715913],
       [ 0.        ,  0.        ,  0.        ,  0.        ,  0.        ],
       [ 0.        ,  0.7748339 ,  0.        ,  0.        ,  0.80939893]])
array(['M', 'M', 'F', 'F', 'M', 'F', 'M', 'M', 'F', 'F'],  dtype='
7.2.2データカットはNumPyライブラリを利用してサンプルデータセットを生成した後、skylearnライブラリを通じて提供されるcross_validationモジュールは、トレーニングデータとテストデータを区分し、コード例:
from sklearn.cross_validation import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=0)
そのうちX_trinはトレーニングデータセット、y_を表します.trinはトレーニング結果集、X_を表します.testはテストデータセット、y_を表します.テスト結果集を表します.その目的はトレーニングセットデータを用いてモデルをシミュレートし,適切なパラメータを与え,その後,試験セットデータを用いてモデル効果を提案することである.