mllib 教師あり学習アルゴリズム精度測定 - linear classifier編


概要

spark mllibの

  • SVM
  • LogisticRegression
  • NaiveBayes

の精度測定を、

  • news20
  • rcv1

に対して実施。その結果を記載する。

各アルゴリズムのパラメータ設定は

Svm

  • L2正則化のみ
  • numIteration = 1000
  • SGD, miniBatchFraction = 1.0
  • regParam=c= 1.0* 10^-3 〜 1000まで測定

LogisticRegression (LR)

  • L2正則化のみ
  • numIteration = 1000
  • SGD, miniBatchFraction = 1.0
  • regParam=c= 1.0* 10^-3 〜 10まで測定

NaiveBayes (NB)

  • lambda=1.0*10^-3 〜 1000

測定結果

news20 NB

lambda 正例F1値 正解率
0.0001 0.975 0.975
0.001 0.974 0.974
0.01 0.973 0.972
0.1 0.967 0.967
1.0 0.931 0.933
10.0 0.838 0.855

rcv1 NB

lambda 正例F1値 正解率
0.0001 0.925 0.924
0.001 0.932 0.932
0.01 0.937 0.935
0.1 0.943 0.941
1.0 0.941 0.939
10.0 0.932 0.931

rcv1 LR

regParam 正例F1値 正解率
0.0001 0.924 0.922
0.001 0.924 0.922
0.01 0.924 0.922
0.1 0.924 0.922
1.0 0.924 0.922
10.0 0.924 0.922
100.0 NaN 0.481
1000.0 NaN 0.481

rcv1 svm

regParam 正例F1値 正解率
0.0001 0.924 0.922
0.001 0.924 0.922
0.01 0.924 0.922
0.1 0.924 0.922
1.0 0.924 0.922
10.0 0.924 0.922
100.0 NaN 0.480
1000.0 NaN 0.480