データ科学6週間R
2617 ワード
防止のために
パラメータ最適化–Caret packageのgrid search
ラーニングカーブを使用して最適点を決定するには
fit_full <- rpart(deposit~housing+month+duration+previous,
data = tr_set,
method = 'class',
cp = 0,
minsplit = 1,
minbucket = 1,
maxdepth = 30
)
printcp(fit_full)
plotcp(fit_full)
CP nsplit rel error xerror xstd
1 3.2215e-01 0 1.000000 1.00000 0.015646
2 1.3950e-01 1 0.677852 0.68600 0.014781
3 1.7977e-02 2 0.538351 0.56088 0.013967
4 1.5820e-02 4 0.502397 0.51630 0.013601
5 8.3893e-03 5 0.486577 0.49185 0.013381
6 6.2320e-03 7 0.469799 0.49041 0.013367
......
34 1.2784e-04 845 0.093480 0.54219 0.013819
35 1.1985e-04 860 0.091563 0.54506 0.013842
36 9.5877e-05 903 0.084851 0.54506 0.013842
37 5.9923e-05 908 0.084372 0.54746 0.013861
38 0.0000e+00 916 0.083893 0.54746 0.013861
相対誤差はルートノードの誤り率を1にする. (先行分布に基づいて生じる誤差、すなわち訓練セット全体の分布に基づいて生じる誤差)は、先行分布に基づいて生じる相対的な誤り率である.
これは訓練の間違いで、常に1未満でなければなりません.
先行分布による誤り率とは、全体データ分布から多種類予測された場合(すなわち、予測変数値に関係なく)の誤り率である.
cross validation error、これも相対数値です.
基準値はルートノードrelerror=1
これはcvからのエラーです. これはテストエラーであり、ルートノード上のトレーニングエラーの相対エラー率であるため、1より大きい可能性がある.
xerror値が再び増加することは
cpは最適点を超えている,すなわち,超適切と考えられる.
ex)ルートノードのエラー値=0.2サブノードのエラー値=0.37、relerror=0.37/0.2
パイロット確率とポスト確率
モデル駆動とデータ駆動
≪モデル駆動|Model Drive|oem_src≫:モデルを作成するための予測モード->モデルと実際のデータの関係の分析
Pvalueベースの厳密な下限分離
データ駆動:未知の関連性を発見できるアルゴリズムを用いて、機械学習における方法
分
Reference
この問題について(データ科学6週間R), 我々は、より多くの情報をここで見つけました https://velog.io/@cksgodl/데이터사이언스6주차Rテキストは自由に共有またはコピーできます。ただし、このドキュメントのURLは参考URLとして残しておいてください。
Collection and Share based on the CC Protocol