7.2データのロードとカット
1763 ワード
7.2.1データロード
データ解析はまずデータをロードします.一般的にはNumPyの配列やPandsのDataFrameなどのデータ構造を使ってデータを保存します.コード例:
データ解析はまずデータをロードします.一般的にはNumPyの配列やPandsのDataFrameなどのデータ構造を使ってデータを保存します.コード例:
import numpy as np
X = np.random.random((10,5))
y = np.array(['M','M','F','F','M','F','M','M','F','F','F'])
X[X < 0.7] = 0
以上のコードでは、マトリックスXは10行5列のデータセットを表し、X元素のうち0.7未満の値を0に設定し、ベクトルyは属性ラベルを表し、それぞれの結果がarray([[ 0. , 0. , 0.99279061, 0. , 0. ],
[ 0. , 0. , 0. , 0. , 0. ],
[ 0. , 0.75228332, 0. , 0. , 0. ],
[ 0. , 0. , 0. , 0. , 0. ],
[ 0. , 0.96809177, 0. , 0. , 0. ],
[ 0.73956947, 0. , 0.83682458, 0.82550419, 0.7967034 ],
[ 0.94029749, 0. , 0. , 0. , 0. ],
[ 0. , 0.86847999, 0.84031636, 0.88293549, 0.75715913],
[ 0. , 0. , 0. , 0. , 0. ],
[ 0. , 0.7748339 , 0. , 0. , 0.80939893]])
array(['M', 'M', 'F', 'F', 'M', 'F', 'M', 'M', 'F', 'F'], dtype='
7.2.2データカットはNumPyライブラリを利用してサンプルデータセットを生成した後、skylearnライブラリを通じて提供されるcross_validationモジュールは、トレーニングデータとテストデータを区分し、コード例:from sklearn.cross_validation import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=0)
そのうちX_trinはトレーニングデータセット、y_を表します.trinはトレーニング結果集、X_を表します.testはテストデータセット、y_を表します.テスト結果集を表します.その目的はトレーニングセットデータを用いてモデルをシミュレートし,適切なパラメータを与え,その後,試験セットデータを用いてモデル効果を提案することである.