R言語-機械学習要約


R言語基礎文法


https://zhuanlan.zhihu.com/p/21597713 https://zhuanlan.zhihu.com/p/21576354
1.listをdata frameに変換
mydataframe=as.data.frame(mylist)

R言語&機械学習


caret package


1.データ区分spamというデータセットに対してトレーニングセットおよびテストセットの8/2区分を行う.
# createDataPartition( ) 
#  spam$type( spam type label)
# p=0.8 80%
# list , list=FALSE
inTrain 0.8,list=FALSE)

#  
training #  
testing 

SMOTE処理非平衡データ(DMwRパケット)


perc.over=xxは少ないサンプルが元の(1+xx/100)倍percになることを示す.under=yyは多様本が少ないサンプルとなるyy/100*(xx/100)倍を表す

XGboost


XGBoostのパラメータ


補足説明:1.xgboostパラメータのmin_child_weight 2. xgboostパラメータのcolsample_bytreeeが各木を訓練する際に訓練に使用する特徴の割合は、RandomForestClassifierのmax_に似ている.牙列缺损

xgb.cv


1.クロス検証とxgboost 2.クロス検証(xgb.cv)によるパラメータ調整によりbest_を得るiteration

xgb.train


xgb.importanceフィーチャーの重要性とそのソート


基本思想:構造点数の利得状況からどの特徴のどの分割点を選択するか,ある特徴の重要性は,すべてのツリーに現れる回数の和である.