R言語-機械学習要約
R言語基礎文法
https://zhuanlan.zhihu.com/p/21597713 https://zhuanlan.zhihu.com/p/21576354
1.listをdata frameに変換
mydataframe=as.data.frame(mylist)
R言語&機械学習
caret package
1.データ区分spamというデータセットに対してトレーニングセットおよびテストセットの8/2区分を行う.
# createDataPartition( )
# spam$type( spam type label)
# p=0.8 80%
# list , list=FALSE
inTrain 0.8,list=FALSE)
#
training #
testing
SMOTE処理非平衡データ(DMwRパケット)
perc.over=xxは少ないサンプルが元の(1+xx/100)倍percになることを示す.under=yyは多様本が少ないサンプルとなるyy/100*(xx/100)倍を表す
XGboost
XGBoostのパラメータ
補足説明:1.xgboostパラメータのmin_child_weight 2. xgboostパラメータのcolsample_bytreeeが各木を訓練する際に訓練に使用する特徴の割合は、RandomForestClassifierのmax_に似ている.牙列缺损
xgb.cv
1.クロス検証とxgboost 2.クロス検証(xgb.cv)によるパラメータ調整によりbest_を得るiteration
xgb.train
xgb.importanceフィーチャーの重要性とそのソート
基本思想:構造点数の利得状況からどの特徴のどの分割点を選択するか,ある特徴の重要性は,すべてのツリーに現れる回数の和である.