ラビットチャレンジ - 応用数学 第3章 情報理論


0.概要

本記事は日本ディープラーニング協会認定の講座プログラムである「ラビット・チャレンジ」が提供している科目の1つである応用数学のレポートである。
記事タイトルに記載のとおり、第3章の情報理論について以下にまとめる。

1.自己情報量

ある事象$x$の発生確率が$P(x)$である時の情報量のこと。
$W(x)$:事象が起きた時、それが$x$である数みたいなもの

発生確率が低い方(珍しい)が情報量が多い。
また、情報量は加法性がある。

I(x)=-log(P(x))=log(W(x))

$P(x)$と$W(x)$は逆数の関係にある。

W(x)=\frac{1}{P(x)}

情報量の式で$log(P(x))$にマイナスがついているのは$log$は中の値を反転させると符号も反転するため。

例)1~40の選択肢があるうち、あたりが1つあるとすると、1~20までにあたりがある(確率1/2)より1~10までにあたりがある(確率1/4)にあたりがあるという情報の方が情報量が多い(選択肢をより絞れる)。

対数の底が2の場合、単位はビット(bit)。
対数の底が10(常用対数)の場合、単位はディット(dit)。
対数の底がネイピア数(自然対数)の場合、単位はナット(nat)。

2.シャノンエントロピー

自己情報量の期待値(情報の珍しさの平均)。
事象$x$の平均情報量。

予測できなさ、不確定さとも言える。
例)コイントスの場合、表ばかり出る、裏ばかり出るよりも表裏が大体同じくらい出る(次どっちでるか分からない)方がこのシャノンエントロピーは大きくなる。

H(x)=E(I(x))
H(x)=-E(log(P(x)))
H(x)=-\sum{(P(x)log(P(x)))}

3.カルバック・ライブラー ダイバージェンス(KLダイバージェンス)

同じ事象・確率変数における異なる確率分布$P,Q$がどれだけ似ているか、違うか。

KL情報量、KL距離とも呼ぶ。
確率$P$、確率$Q$の確率分布がどれだけ近いか、どれだけ遠いか距離のように表す。
確率$Q$だったと思ってたら確率$P$だと判明した時、どれくらい違うか。
そのためPからQ、QからPで見た時、値が変わる。

D_{KL}(P\parallel{Q})
=E_{x~P}\left[log\frac{P(x)}{Q(x)}\right]
=E_{x~P}[logP(x)-logQ(x)]
I(Q(x))-I(P(x))=(-log(Q(x)))-(-log(P(x)))=log\frac{P(x)}{Q(x)}
D_{KL}(P\parallel{Q})=\sum_{x}{P(x)(-log(Q(x)))-(-log(P(x)))}=\sum_{x}{P(x)\frac{P(x)}{Q(x)}}

KLダイバージェンスはマイナスにならない。
また、PとQが同じ場合は0となる。

4.交差エントロピー

KLダイバージェンスの一部を取り出したものでQについての自己情報量をPの分布で平均したもの。
$H$:シャノンエントロピー

H(P,Q)=H(P)+D_{KL}(P\parallel{Q})

Kerasで2択の分類問題やる時に損失関数で指定していたbinary_crossentropyがこれってことですね。
予測値の$P$が正解の$Q$とどれだけ違うか(正解から遠いか)を表し、これによって正解なのか不正解なのか、どのクラスに分類されるのかが決まる。

X.ラビットチャレンジとは

ラビットチャレンジとは、日本ディープラーニング協会認定の講座プログラムの1つ。
E資格を受験するためにはこのラビットチャレンジ等、いずれかの講座プログラムを修了しなければならない。

ラビットチャレンジの特徴は「現場で潰しが効くディープラーニング講座」の通学講座録画ビデオを編集した教材を使用した自習スタイルであるという点。
サポートは他の講座より少なく、受け身ではなく自主的に学んでいく姿勢でなければ進められないが、その分、他の講座に比べると安価であり、手が出しやすい。
ある程度知識がある人、自力で頑張るぞというガッツのある人向けではないかと感じる。