[深さ学習]Norm、Loss、Regulation


1. Norm


Normはベクトルサイズ(長さ)を測定する方法(関数)である.すなわち、2つのベクトル間の距離を測定する方法である.
図1
  • 式において、pはNormの次元数を表す.p=1はL 1 Norm、p=2はL 2 Normを表す.
  • nはこのベクトルの要素数である.
  • すなわち,Normはベクトルでも値でも任意の値の大きさを計算することで比較可能な数値を生成できる関数と見なすことができる.
    図2

    (1) L1 Norm(Manhattan Distance, Taxicab geometry)


    L 1 Normは、図2に示すように、2つのベクトルの差分絶対値の総和である.
    x = (1, 3, 2) , y = (4, -1, 5) 일 때 
      -> d(x, y) = |4-1| + |-1-3| + |5-2| = 10 이다.

    (2) L2 Norm(Euclidean Distance)


    これは数学的に「距離」という場合に最も基本的に使われるEuclidean距離を意味する.一般的に、距離を測定するときは、各要素値の差の二乗を加算してルートの値を加算します.
    x = (1, 3, 2), y = (4, -1, 5) 일 때
      -> d(x,y) = √((4-1)² + (-1-3)² + (5-2)²) = √34 이다.

    (3)L 1 NormとL 2 Normの直感的な違い


    図3
    図3に示すように、2つの黒点(ベクトル)を接続する複数の線が存在する.L 1 Normには、赤、青、黄など、Shortest Pathがたくさんあります.でもL 2 Normは緑のUnique Shortest Pathのみ

    Loss


    (1) L1 Loss


    これらのNormの概念により,予測値と実際の値の差,すなわち損失を算出することができる.L 1欠落は、図2の第1の式のI 1およびI 2をy trueおよびy preduredで置換する.
    図4

    (2) L2 Loss


    L 2 Lossも図2のL 2 Normの式にy trueとy predictedを加えた.しかし、異なる点があれば、L 2損失に対してルーティングは行われない.
    図5

    (3)L 1ロスとL 2ロスの特性


    L1 LossL2 LossRobustNot very robustUnstable solutionStable solutionPossibly multiple solutionAlways one solution
  • Robust:これは、異常値の影響が小さいことを意味します.例えば、L 2損失の場合、異常値が存在する場合、予測値と実際の値との差が2乗になるため、実際よりも大きな損失値となる.
  • 可用性:これは、モデルが類似データの予測にどれだけ一致するかを意味する.
    図6
  • 黒点実データオレンジ点Outlier Point,異常データ赤実線L 2赤点線異常データ変化L 2損失変化緑実線L 1損失緑点線異常データ変化L 1損失変化
    図6に示すように、異常値が実値に近づくとL 2損失図は変化しないが、異常値がどの値であるかにかかわらず、L 1損失図には様々な変化がある.これらの特性からL 1は不安定でL 2は安定といえる.

    3. Regularization


    Regularizationは通常「正規化」と訳されますが、標準化と混同される可能性があり、オーバーフィットの予防と従来化のパフォーマンスの向上に実質的に役立ちます.実質的には「一般化」と訳した方が適切と考えられる.
    図7
    図7に示すように、通常、データ学習モデルを通過する際には、Cost Functionの最小方向に学習が行われる.しかし、これは特定の重み値が大きくなるにつれてオーバーフィットを生じ、結果をさらに悪化させる可能性がある.このとき、「正規化要素」(Regularization Term)をCost Functionに追加すると、いくつかのパラメータを大きくすることなく、モデルをより一般的にすることができます.

    (1) L1 Regularization(Lasso Model)


    図8
    図8の式では、前の部分が「ロス」(Cost)機能である.最終的には、Loss FunctionにL 1正規化要素(Regularization Term)を追加することにより、既存のLossに絶対値を加えたパネルに対して、過度なフィットを防止する.
    デフォルトでは、Loss Functionは値が小さくなる方向に学習します.しかし,無条件に損失を減少させるとオーバーフィットが発生するため,重み付けの絶対値(L 1正規化Term)を加えることで,損失機能学習による程度を相殺することができる.

    (2) L2 Regularization(Ridge Model)


    図9
    図9の式に示すように、L 1正規化とL 2正規化の違いは、正規化Termが絶対値を加算するか平方を加算するかである.

    (3)L 1 RegとL 2 Regの区別と選択基準


  • λ学習率などの定数で、正規化の度合いを決める定数です.

  • Regularizationは最終的に重み付けWを小さくするために学習し,これは最終的にLocal Noiseの影響が小さい=Outlierの影響が小さいことを意味する.

  • L 1 Regは通常定数値を減算することが要求されるので,小さな重みはほとんどゼロに収束し,いくつかの重要な重みしか残っていない.

  • すなわち,特徴選択が可能であり,Sparseモデルの学習に適している.

  • これに対してL 2 Regは、異常値に対応する重み付け値をゼロに近づけるだけであり、ゼロにはならない.

  • L 1 Regのように異常値の影響を全く受けないわけにはいかないが,常に汎用性が向上する.(常に中途半端ではなく安定したソリューションを提供しています)