KLダイバージェンスで確率分布の距離を測る理由


$$
\newcommand{\R}{\mathbb{R}}
\newcommand{\C}{\mathbb{C}}
\newcommand{\N}{\mathbb{N}}
\newcommand{\Z}{\mathbb{Z}}
\newcommand{\kk}{{\mathbf{k}}}
\newcommand{\pp}{{\mathbf{p}}}
\newcommand{\xx}{{\mathbf{x}}}
\newcommand{\XX}{{\mathbf{X}}}
\newcommand{\yy}{{\mathbf{y}}}
\newcommand{\zz}{{\mathbf{z}}}
\newcommand{\ee}{\mathbf{e}}
\newcommand{\qq}{\mathbf{q}}
\newcommand{\ga}{\gamma}
\newcommand{\la}{\lambda}
\newcommand{\La}{\Lambda}
\renewcommand{\S}{\mathscr{S}}
\renewcommand{\rm}{\mathrm}
\newcommand{\fr}{\frac}
\renewcommand{\hat}{\widehat}
\renewcommand{>}{\right\rangle}
\renewcommand{<}{\left\langle}
\newcommand{\LL}{\mathrm{(L)}}
\newcommand{\CC}{\mathrm{(C)}}
\newcommand{\pa}{\partial}
\newcommand{\Ga}{\Gamma}
$$
$\small{キーワード:Sanovの定理,Sanov's theorem, カルバックライブラー情報量,カルバックライブラー距離,KLダイバージェンス,KL情報量}$

こちらに素晴らしい解説がありますが,私の勉強も兼ねて,理解したことをまとめます.

結論から言うと,KLダイバージェンスで確率分布の距離を測る理由はSanovの定理があるからです.

読み方はサノフです.サノスではありません

Sanovの定理(Sanov's theorem)

集合$ X $上の確率分布全体からなる集合を$ \mathcal{P} $で表す.確率分布$ q \in \mathcal{P} $を任意にとって固定し,$ q $から生成される独立同分布$ x_1 , ... , x_n $から導かれる経験分布を$ p_n $で表す.このとき,集合$ A \subset \mathcal{P} $に対し,その内部(開核)の閉包が$ A $を含むならば,

\lim _{n \to \infty} \frac{1}{n} \log \mathbb{P} (p_n \in A)= - \inf _{p \in A} D_{\text{KL}} (p \| q) 

が成立する.

正確なstatementについては英語wikiこちらの解説をご参照下さい.

Sanovの定理の解釈と,KLダイバージェンスとの関係

(不正確・不誠実な記述があるかもしれません.ご容赦ください)

何らかの確率分布から生成されていると思われるサンプルたち$ x_1,...,x_n $を観測したとき,真の確率分布$
q $を推定したい
,という問題を考えているとします.

Sanovの定理とは,ざっくり言うと,真の確率分布$ q $から生成されるサンプルたち$ x_1 , ... , x_n $が,別の確率分布$ p $から生成されたものであるように振舞う確率は,

\mathbb{P} (p  \approx q)   \approx e^{-n D_{\text{KL}}(p \| q)}

で近似できる,という主張です.

単語を変えて言い換えると,真の確率分布$ q $による$
n $回の独立試行で,経験分布$ p $が偶然に生じる確率$ \mathbb{P} (p \approx q) $の$ \log $をとって$ -1/n $倍すると,KL情報量

D_{\text{KL}}(p \| q)

が現れる,とも言えます.

もっと言い換えると,$ p $と$ q $の距離(KLダイバージェンス)が,$ p $と$ q $を混同してしまう確率に指数のオーダーで効いてくる,とも言えます.

そしてこれこそが,KLダイバージェンスが,確率分布どうしの距離を測る尺度として最も適切であることの理由です.

大事なことなのでもう一度書くと,KLダイバージェンスが確率分布どうしの距離を測る尺度として適切である理由はSanovの定理にあります

KLダイバージェンス$ D_{\text{KL}}(p | q) $は対称性を満たしませんが,これは,片方が真の分布,もう片方が経験分布であることからも,自然な帰結であることがわかります.