混同行列


混同行列についてザックリ理解するための個人まとめ。

1.混同行列とは

機械学習における「モデルの性能評価」に使うもの。
解きたいタスクは「二値分類」(「二項分類」「バイナリ分類」とも言うっぽい)

1-1.混同行列の分類

  • 機械学習の予測値で出て、実際の値が正解であるもの:TP(True Positive/真陽性)
  • 機械学習の予測値で出て、実際の値が不正解であるもの:FP(False Positive/偽陽性)
  • 機械学習の予測値で出ず、期待に反して、実際の値が正解であるもの:FN(False Negative/偽陰性)
  • 機械学習の予測値で出ず、期待通り、実際の値が不正解であるもの:TN(True Negative/真陰性)

・True = 正しい
・False = 間違い
・Positive = 出てきた
・Negative = 出てこない

1-2.混同行列の例

犬か、犬ではないかを判断するモデルが作りたい場合、
以下の二通りを判断するための二項分類の問題といえる。

  • 犬である=1
  • 犬ではない=0

2.混同行列における主な指標

①正解率(Accuracy)/精度:予測クラス総数のうち正しく予想したクラスの割合
②適合率(Precision):Positiveと予想したクラスのうち実際にPositiveだった割合
③再現率(Recall)/感度 (sensitivity):実際のPositiveクラスのうち正しくPositiveと予想出来た割合
④特異性 (specificity):実際のNegativeクラスのうち正しくNegativeと分類できた割合
⑤偽陽性率FPR(FP Rate):実際のNegativeクラスのうち誤ってPositiveと予想した割合
⑥F値(F-measure):適合率(PRE)と再現率(REC)の調和平均

2-1.正解率(Accuracy)/精度

①正解率(Accuracy):予測クラス総数のうち正しく予想したクラスの割合

$正解率 = \dfrac{正しく予測したやつの総数}{全体総数}$

小難しく書くと
$Accuracy = \dfrac{TP + TN}{TP + FP + FN + TN}$

上記例では

$Accuracy = \dfrac{48 + 42}{48 + 4 + 6 + 42} = \dfrac{90}{100} = 0.9$

2-2.適合率(Precision)/網羅性

②適合率(Precision):Positiveと予想したクラスのうち実際にPositiveだった割合
検索結果として得られた集合のうち、どれだけが検索に適合した内容を含んでいるかの指標。

$適合率 = \dfrac{実際の値も機械学習の予測もPositive}{機械学習の予測がPositiveだったやつの総数}$

小難しく書くと
$Precision = \dfrac{TP}{TP + FP}$

上記例では

$Precision = \dfrac{48}{48 + 4} = \dfrac{48}{52} ≒ 0.92$

2-3.再現率(Recall)/感度 (sensitivity) /正確性

③再現率(Recall):実際のPositiveクラスのうち正しくPositiveと予想出来た割合
真陽性率TPR(TP Rate)ともいう。

$再現率 = \dfrac{実際の値も機械学習の予測もPositiveの数}{実際の値がPositiveの総数}$

小難しく書くと
$Recall = \dfrac{TP}{TP + FN}$

上記例では

$Recall = \dfrac{48}{48 + 6} = \dfrac{48}{54} ≒ 0.89$

2-4.特異性 (specificity)

④特異性 (specificity):実際のNegativeクラスのうち正しくNegativeと分類できた割合

$特異性 = \dfrac{実際の値も機械学習の予測もNegativeの数}{実際の値がNegativeの総数}$

小難しく書くと
$specificity = \dfrac{TN}{TN + FP}$

上記例では

$specificity = \dfrac{42}{42 + 4} = \dfrac{42}{46} ≒ 0.91$

2-5.偽陽性率FPR(FP Rate)

⑤偽陽性率FPR(FP Rate):実際のNegativeクラスのうち誤ってPositiveと予想した割合

$偽陽性率 = \dfrac{機械学習の予測がPositiveだが実際にはNegativeの数}{実際の値がNegativeの総数}$

小難しく書くと
$FPR = \dfrac{FP}{FP + TN}$

($偽陽性率 = (1 - 特異性(specificity))$)

上記例では

$FPR = \dfrac{4}{4 + 42} ≒ 0.09$

2-6.F値(F-measure)

⑥F値(F-measure):適合率(PRE)と再現率(REC)の調和平均

$F値 = \dfrac{2×PRE×REC}{PRE + REC}$

上記例では

$F値 = \dfrac{2×0.92×0.89}{0.92 + 0.89} ≒ \dfrac{1.64}{1.81} ≒ 0.91$

3.ぼやき

再現率 (Recall)のこと感度 (sensitivity)って言ったり正確性って言ったり真陽性率TPR(TP Rate)って言ったりするのややこしすぎませんか。えっややこしくないですか?

参考