KLダイバージェンスで確率分布の距離を測る理由

3448 ワード

確率 KLダイバージェンス KL情報量 Sanov 数学数学テキストリンク

$$
\newcommand{\R}{\mathbb{R}}
\newcommand{\C}{\mathbb{C}}
\newcommand{\N}{\mathbb{N}}
\newcommand{\Z}{\mathbb{Z}}
\newcommand{\kk}{{\mathbf{k}}}
\newcommand{\pp}{{\mathbf{p}}}
\newcommand{\xx}{{\mathbf{x}}}
\newcommand{\XX}{{\mathbf{X}}}
\newcommand{\yy}{{\mathbf{y}}}
\newcommand{\zz}{{\mathbf{z}}}
\newcommand{\ee}{\mathbf{e}}
\newcommand{\qq}{\mathbf{q}}
\newcommand{\ga}{\gamma}
\newcommand{\la}{\lambda}
\newcommand{\La}{\Lambda}
\renewcommand{\S}{\mathscr{S}}
\renewcommand{\rm}{\mathrm}
\newcommand{\fr}{\frac}
\renewcommand{\hat}{\widehat}
\renewcommand{>}{\right\rangle}
\renewcommand{<}{\left\langle}
\newcommand{\LL}{\mathrm{(L)}}
\newcommand{\CC}{\mathrm{(C)}}
\newcommand{\pa}{\partial}
\newcommand{\Ga}{\Gamma}
$$
$\small{キーワード：Sanovの定理，Sanov's theorem, カルバックライブラー情報量，カルバックライブラー距離，KLダイバージェンス，KL情報量}$

こちらに素晴らしい解説がありますが，私の勉強も兼ねて，理解したことをまとめます．

結論から言うと，KLダイバージェンスで確率分布の距離を測る理由はSanovの定理があるからです．

読み方はサノフです．サノスではありません

Sanovの定理（Sanov's theorem）

集合$ X $上の確率分布全体からなる集合を$ \mathcal{P} $で表す．確率分布$ q \in \mathcal{P} $を任意にとって固定し，$ q $から生成される独立同分布$ x_1 , ... , x_n $から導かれる経験分布を$ p_n $で表す．このとき，集合$ A \subset \mathcal{P} $に対し，その内部（開核）の閉包が$ A $を含むならば，

\lim _{n \to \infty} \frac{1}{n} \log \mathbb{P} (p_n \in A)= - \inf _{p \in A} D_{\text{KL}} (p \| q)

が成立する．

正確なstatementについては英語wikiやこちらの解説をご参照下さい．

Sanovの定理の解釈と，KLダイバージェンスとの関係

（不正確・不誠実な記述があるかもしれません．ご容赦ください）

何らかの確率分布から生成されていると思われるサンプルたち$ x_1,...,x_n $を観測したとき，真の確率分布$
q $を推定したい，という問題を考えているとします．

Sanovの定理とは，ざっくり言うと，真の確率分布$ q $から生成されるサンプルたち$ x_1 , ... , x_n $が，別の確率分布$ p $から生成されたものであるように振舞う確率は，

\mathbb{P} (p  \approx q)   \approx e^{-n D_{\text{KL}}(p \| q)}

で近似できる，という主張です．

単語を変えて言い換えると，真の確率分布$ q $による$
n $回の独立試行で，経験分布$ p $が偶然に生じる確率$ \mathbb{P} (p \approx q) $の$ \log $をとって$ -1/n $倍すると，KL情報量

D_{\text{KL}}(p \| q)

が現れる，とも言えます．

もっと言い換えると，$ p $と$ q $の距離（KLダイバージェンス）が，$ p $と$ q $を混同してしまう確率に指数のオーダーで効いてくる，とも言えます．

そしてこれこそが，KLダイバージェンスが，確率分布どうしの距離を測る尺度として最も適切であることの理由です．

大事なことなのでもう一度書くと，KLダイバージェンスが確率分布どうしの距離を測る尺度として適切である理由はSanovの定理にあります．

KLダイバージェンス$ D_{\text{KL}}(p | q) $は対称性を満たしませんが，これは，片方が真の分布，もう片方が経験分布であることからも，自然な帰結であることがわかります．

Author And Source

この問題について(KLダイバージェンスで確率分布の距離を測る理由), 我々は、より多くの情報をここで見つけました https://qiita.com/futakuchi0117/items/5c153aa607e7754faac8

著者帰属：元の著者の情報は、元のURLに含まれています。著作権は原作者に属する。

Content is automatically searched and collected through network algorithms . If there is a violation . Please contact us . We will adjust (correct author information ,or delete content ) as soon as possible .