[深さ学習]Norm、Loss、Regulation
1. Norm
Normはベクトルサイズ(長さ)を測定する方法(関数)である.すなわち、2つのベクトル間の距離を測定する方法である.
図1
図2
(1) L1 Norm(Manhattan Distance, Taxicab geometry)
L 1 Normは、図2に示すように、2つのベクトルの差分絶対値の総和である.
x = (1, 3, 2) , y = (4, -1, 5) 일 때
-> d(x, y) = |4-1| + |-1-3| + |5-2| = 10 이다.
(2) L2 Norm(Euclidean Distance)
これは数学的に「距離」という場合に最も基本的に使われるEuclidean距離を意味する.一般的に、距離を測定するときは、各要素値の差の二乗を加算してルートの値を加算します.
x = (1, 3, 2), y = (4, -1, 5) 일 때
-> d(x,y) = √((4-1)² + (-1-3)² + (5-2)²) = √34 이다.
(3)L 1 NormとL 2 Normの直感的な違い
図3
図3に示すように、2つの黒点(ベクトル)を接続する複数の線が存在する.L 1 Normには、赤、青、黄など、Shortest Pathがたくさんあります.でもL 2 Normは緑のUnique Shortest Pathのみ
Loss
(1) L1 Loss
これらのNormの概念により,予測値と実際の値の差,すなわち損失を算出することができる.L 1欠落は、図2の第1の式のI 1およびI 2をy trueおよびy preduredで置換する.
図4
(2) L2 Loss
L 2 Lossも図2のL 2 Normの式にy trueとy predictedを加えた.しかし、異なる点があれば、L 2損失に対してルーティングは行われない.
図5
(3)L 1ロスとL 2ロスの特性
L1 LossL2 LossRobustNot very robustUnstable solutionStable solutionPossibly multiple solutionAlways one solution
図6
図6に示すように、異常値が実値に近づくとL 2損失図は変化しないが、異常値がどの値であるかにかかわらず、L 1損失図には様々な変化がある.これらの特性からL 1は不安定でL 2は安定といえる.
3. Regularization
Regularizationは通常「正規化」と訳されますが、標準化と混同される可能性があり、オーバーフィットの予防と従来化のパフォーマンスの向上に実質的に役立ちます.実質的には「一般化」と訳した方が適切と考えられる.
図7
図7に示すように、通常、データ学習モデルを通過する際には、Cost Functionの最小方向に学習が行われる.しかし、これは特定の重み値が大きくなるにつれてオーバーフィットを生じ、結果をさらに悪化させる可能性がある.このとき、「正規化要素」(Regularization Term)をCost Functionに追加すると、いくつかのパラメータを大きくすることなく、モデルをより一般的にすることができます.
(1) L1 Regularization(Lasso Model)
図8
図8の式では、前の部分が「ロス」(Cost)機能である.最終的には、Loss FunctionにL 1正規化要素(Regularization Term)を追加することにより、既存のLossに絶対値を加えたパネルに対して、過度なフィットを防止する.
デフォルトでは、Loss Functionは値が小さくなる方向に学習します.しかし,無条件に損失を減少させるとオーバーフィットが発生するため,重み付けの絶対値(L 1正規化Term)を加えることで,損失機能学習による程度を相殺することができる.
(2) L2 Regularization(Ridge Model)
図9
図9の式に示すように、L 1正規化とL 2正規化の違いは、正規化Termが絶対値を加算するか平方を加算するかである.
(3)L 1 RegとL 2 Regの区別と選択基準
λ学習率などの定数で、正規化の度合いを決める定数です.
Regularizationは最終的に重み付けWを小さくするために学習し,これは最終的にLocal Noiseの影響が小さい=Outlierの影響が小さいことを意味する.
L 1 Regは通常定数値を減算することが要求されるので,小さな重みはほとんどゼロに収束し,いくつかの重要な重みしか残っていない.
すなわち,特徴選択が可能であり,Sparseモデルの学習に適している.
これに対してL 2 Regは、異常値に対応する重み付け値をゼロに近づけるだけであり、ゼロにはならない.
L 1 Regのように異常値の影響を全く受けないわけにはいかないが,常に汎用性が向上する.(常に中途半端ではなく安定したソリューションを提供しています)
Reference
この問題について([深さ学習]Norm、Loss、Regulation), 我々は、より多くの情報をここで見つけました https://velog.io/@dongho5041/딥러닝-Norm-Loss-Regularizationテキストは自由に共有またはコピーできます。ただし、このドキュメントのURLは参考URLとして残しておいてください。
Collection and Share based on the CC Protocol