第8週WIL

3501 ワード

評価指標


学習モデルの性能を測定指導する評価指標は大きく2種類の評価指標と多種類の評価指標に分けられる.

バイナリ分類の評価指標


バイナリ分類には陽性と陰性がある.
  • エラーのタイプ
    1.偽陽性:陰性、誤分類陽性
    2、偽陰性:陽性であり、誤って陰性
  • に分類する
    アンバランスデータセット:1つのクラスが他のクラスよりずっと多いデータセット!

    ごさぎょうれつ


    誤差行列は,バイナリ分類評価結果を表す際に最も広く用いられる方法の一つである.
  • 2 x 2配列の行は答えクラスに対応し、列は予測クラスに対応する.
  • 各エントリの番号
  • は、行のクラスが列に分類されたクラスの数を表す.
  • 対角行列が正しく分類されている場合、もう1つのクラスの例が別のクラスに誤って分類されている.

  • --9じゃないと言ったら-
    上図で予測したのは9ではなく、実際には9ではない例は401である.(真陽性)
    実は9のサンプルは8個あります(偽陽性)
    陽性カテゴリを正しく分類したサンプルは真陽性(TP)
    偽陽性(FP)
    正しく分類された音声サンプルをリアル音声(TN)に変換
    音声分類エラーのサンプルは偽音声(FN)
    誤差行列の結果をまとめる1つの方法は精度で表すことである.
  • 精度=TP+TF/TP+FP+TN+FN
  • 精度、再現率、f-スコア


    精度だけでなく,誤差行列の結果を精度,再現率,f−スコアで要約することもできる.

  • 精度(陽性予測)=𝑇𝑃/(𝑇𝑃+𝐹𝑃)
    陽性と予測された試料のうちどれだけが真陽性であるかを測定した.

  • 宰賢率(感度、命中率、真陽性率)=𝑇𝑃/(𝑇𝑃+𝐹𝑁)
    全ての陽性サンプルにおいて、真の陽性サンプルに正確に分類される割合.
  • 精度最適化と再現率最適化は互いに衝突する
    全てのサンプルが陽性(TPまたはFP)である場合
    TNおよびFNは0であるため、再生率は1である.
    ただし、FP値が大きいほど精度は
  • 低くなる
    f−スコアは精度と再現率を1つの全体に要約する.
  • f-スコア:精度と再現率の調和平均
    F(f 1-分数)=2×(精度、再現率)/(精度+再現率)
  • しきい値


    陽性率が臨界値以上の場合、サンプルは陽性(TP,NP)に分類される 
    ->しきい値が低いほど、陽性等級比率が高くなります
    ->しきい値が高いほど、音声レベルの比率が高くなります

    精度-再現率曲線


    すべてのしきい値を表示したり、精度や再現率を一度に表示したりするメリットとデメリット
    from sklearn.metrics import precision_recall_curve 
  • ターゲットラベルおよび決定関数または予測proba法を用いて計算された予測不確実性
  • 曲線上の各点はdecision関数の可能なすべてのしきい値
  • に対応する.
  • のデフォルトのしきい値0点を基準とする、しきい値の変化に伴って再現率と精度が変化する
  • .
  • 曲線は精度も再現率も高い点であり、右上隅はより良い分類器
  • である.
    曲線の底部面積を計算することにより,曲線全体に含まれる情報を要約するために平均精度を求めることができる.

    ROC, AUC


    ROC曲線は、分類器の特性を複数のしきい値で解析するための一般的なツールです.
    精度-再現率曲線などの分類器のすべてのしきい値を考慮するが、精度と再現率ではなく、真の陽性率(再現率)に対する偽陽性率を表す.
  • 真陽性率(TPR)=再現率
  • 偽陽性率:全ての音声サンプルにおいて偽陽性に誤って分類する比率、FP/FP+TN
  • from sklearn.metrics import roc_curve
  • ROC曲線のFPRは低いままであり、TPRは左上隅に近いほど
  • である.
  • のデフォルトしきい値が0の位置にFPRをいくつか追加することで、再生率を大幅に向上させることができる
  • ROCでは、同様に曲線の下の面積値を用いてROC曲線を要約することができる.
    この面積は一般的にAUCと呼ばれています
  • AUCの0と1の間の値は
  • です.
  • データのアンバランスにかかわらず、ランダム予測AUC値は0.5である.
  • したがって、
  • は、アンバランスなデータセットに対して、AUCがより正確である.
  • from sklearn.metrics import roc_auc_curve

    SVM対異なるgammaのROC曲線.
    (これまでは、すべてのカーブがSVMで描かれていました.)
    ※3種類のガンマ値の精度はいずれも0.9である.
    gamma=1の場合AUC=0.5
    gamma=0.1の場合、AUC=0.94
    gamma=1の場合AUC=1
    したがって、アンバランスデータセットはAUCを使用することが望ましい.

    多分類の評価指標


    複数の分類の評価指標は基本的に先ほど見たバイナリ分類評価指標から導出されるが,すべてのクラスに対して平均的である.
    複数の分類の精度も、サンプル全体の正確な分類サンプルの割合で計算される.
    マルチカテゴリでは、アンバランスデータセットで最も一般的な測定指標は、マルチカテゴリバージョンのf 1-スコアである.
    複数のクラスのf 1−スコアは、1つのクラスを陽性と見なし、残りのクラスを陰性と見なし、各クラスのf 1−スコアを計算し、各クラスのスコアを平均する.
    平均的な方法はいろいろあります.
    macro平均値:クラス重み付けf 1-scoreなし.プロトコル平均
    重み付け平均:カテゴリサンプル数で重み付けし、f 1-scoreスコアの平均値を計算する
    ミクロ平均:全カテゴリーFP、FN、TPの合計値を計算し、精度、再現率、f 1-scoreを計算する

    回帰の評価指標


    回帰の評価指標は十分R^2である.
    お疲れ様でした~!