機械学習ノート:各種エントロピー


機械学習では通常,条件エントロピーやクロスエントロピーなど,分布と分布の関係を記述するために種々のエントロピーが用いられ,最大エントロピーモデルのようなエントロピーを直接最適化するモデルもある.この文章は以前見たエントロピーに関する概念を簡単にまとめた.
じょうほうりょう
定義#テイギ#
離散ランダム変数X X Xが分布P(X=x i)=p i P(X=x_{i})=p_を満たすと仮定する{i}P(X=xi)=pi、定義イベントX=x i X=x_{i}X=xiの情報量はI(x i)=−l o g(p i)I(x_{i})=−log(p_{i})I(xi)=−log(pi)である.
せいしつ
値範囲は[0, +∞)区間であり,その名の通り,1つのイベントの情報量は,イベント発生が人に与える情報の多少と直感的に理解できる.定義から,イベント発生確率が小さいほど情報量が大きくなることが分かる.
じょうほうエントロピー
定義#テイギ#
情報エントロピーはランダム変数X X Xを記述するために用いられ、情報エントロピーを情報量の期待値H(X)=E x〜P[I(x)]=−Σi=1 np i l o g(p i)H(X)=E_と定義する{x\sim P}[I(x)] = -\sum_{i = 1}^{n}{p_{i} log(p_{i})} H(X)=Ex∼P​[I(x)]=−i=1∑n​pi​log(pi​)
せいしつ
値範囲[0, log(n)]区間の情報エントロピーは、ランダム変数の不確実性を記述しており、全てのイベント等が起こり得る場合に、情報エントロピーが最大値を取得するのと同様に、結合分布P(X,Y)P(X,Y)P(X,Y)と条件分布P(X∣Y=y i)P(X|Y=y_{i})P(X∣Y=yi)の情報エントロピーを定義することができる
じょうけんエントロピー
定義#テイギ#
離散ランダム変数X XとY Yが結合分布P(X=x i,Y=y i)=p i j P(X=x_{i},Y=y_{i})=p_を満たすと仮定する{ij}P(X=xi,Y=yi)=pij,エッジ分布P(X=x i)=p i P(X=x_{i})=p_{i}P(X=xi)=pi,定義条件エントロピーはH(X∣Y)=−Σi=1 np i H(Y∣X=x i)H(X|Y)=−sum_{i = 1}^{n}{p_{i}H(Y | X = x_{i})} H(X∣Y)=−i=1∑n​pi​H(Y∣X=xi​)
せいしつ
H(X∣Y)=H(X,Y)−H(X)H(X|Y)=H(X,Y)−H(X)H(X∣Y)=H(X(X,Y)−H(X)H(X∣Y)=H(X,Y)−H(X)条件エントロピーが,X X Xが既知である場合のY Y Yの情報エントロピーを記述していることを証明できる.
そうたいエントロピー
定義#テイギ#
相対エントロピーはKL分散(KL divergence)とも呼ばれる.離散ランダム変数X X Xと,X X X上に定義された二つの分布P(X=x i)=p i P(X=x_{i})=p_{i}P(X=xi)=piとQ(X=x i)=q i Q(X=x_{i})=q_{i}Q(X=xi)=qi,定義相対エントロピーはDKL(p∣∣q)=Σi=1 np i l o g(p i q i)D_{KL}(p || q) =\sum_{i = 1}^{n}{p_{i} log(\frac{p_{i}}{q_{i}})} DKL​(p∣∣q)=i=1∑n​pi​log(qi​pi​​)
せいしつ
KL分散は、通常、2つの分布間の相違または距離を記述するために使用される.両分布が近いほどKL分散は小さくなるので,GANの論文では生成器によって生成されたサンプル分布と実際のサンプル分布との差を測定するためにKL分散を用いた.しかしKL分散は距離の対称性を満たさない,すなわちDK L(p∣∣q)≠DK L(q∣∣p)D_{KL}(p || q) eq D_{KL}(q || p) DKL​(p∣∣q)̸​=DKL​(q∣∣p)
クロスエントロピー
定義#テイギ#
離散ランダム変数X X Xと,X X X上に定義された二つの分布P(X=x i)=p i P(X=x_{i})=p_{i}P(X=xi)=piとQ(X=x i)=q i Q(X=x_{i})=q_{i}Q(X=xi)=qi、クロスエントロピーをH(p,q)=−Σi=1 np i l o g(q i)H(p,q)=−sum_と定義する{i = 1}^{n}{p_{i} log(q_{i})} H(p,q)=−i=1∑n​pi​log(qi​)
せいしつ
H(p,q)=H(p)−DKL(p∣∣q)H(p,q)=H(p)−D_{KL}(p‖q)H(p,q)=H(p)−DKL(p∣∣q)注意クロスエントロピーは1つのランダム変数の2つの分布に定義され,情報エントロピーH(X,Y)H(X,Y)H(X,Y)H(X,Y)と区別されたクロスエントロピーは,分布Q Qを用いてP P P Pをフィットさせる際の損失を定義し,機械学習で用いられるクロスエントロピー損失関数は,予測分布と実際のデータ分布のクロスエントロピーを損失関数とするものである.
JS分散
定義#テイギ#
JS散度はKL散度部隊称の特徴を修正し,J S D(p∣∣q)=1 2 DKL(p∣p+q 2)+1 2 DKL(q∣p+q 2)JSD(p|q)=frac{1}{2}D_と定義した.{KL}(p ||\frac{p + q}{2}) +\frac{1}{2} D_{KL}(q ||\frac{p + q}{2}) JSD(p∣∣q)=21​DKL​(p∣∣2p+q​)+21​DKL​(q∣∣2p+q​)
せいしつ
KL分散非対称性の特徴を解決した.