推定量の有効性とフィッシャー情報量


1. 要約

$\theta_1$と$\theta_2$がともに$\theta$の不偏推定量であり,$V(\theta_2)>V(\theta_1)$となる時,$\theta_1$は$\theta_2$より有効であると言います.本記事では,統計的推測問題における推定量の良さをはかる有効性という性質についてまとめました.

2. フィッシャー情報量とクラメールラオの下限

(今回の記事では,微分と積分は順序交換可能であるとします)

2.1 フィッシャー情報量

分布の集合の要素である密度関数あるいは確率関数をパラメータ$\theta$の関数とみなす時,その関数は尤度関数($f(x|\theta)$と表します)と呼ばれます.その対数をとったものは対数尤度関数と呼ばれ,ここでは,
$$l(\theta) := l(\theta|x) = \log f(x|\theta)$$
と表すこととします.フィッシャー情報量(fisher information)は,

\begin{align*}
I(\theta) &:= E\left[\left(\frac{\partial}{\partial\theta}l(\theta)\right)^2\right]\\
&= E\left[\frac{(f(x|\theta)')^2}{f(x|\theta)^2}\right]\\
&=\left\{\begin{array}{ll}
\sum_{i=1}^\infty\frac{(f(x|\theta)')^2}{f(x|\theta)}\ (discrete\ r.v.)\\
\int_{-\infty}^\infty \frac{(f(x|\theta)')^2}{f(x|\theta)}dx\ (continuous\ r.v.)
\end{array}\right.
\end{align*}

と定義される情報量です.対数尤度に関する期待値について,
$$E\left[\frac{\partial\log f(X;\theta)}{\partial\theta}\right] = 0$$
となる性質があります.これは,
$$1 = \int_{-\infty}^\infty f(x|\theta)dx$$
(密度関数の全区間での積分が1となる性質)の両辺を$\theta$に関して微分すると,

\begin{align*}
0 = \int_{-\infty}^\infty \frac{\partial f(x|\theta)}{\partial\theta}dx\tag{*}
\end{align*}

となるが,これに,$f(x|\theta)/f(x|\theta)=1$を挟み込むと
$$0 = \int_{-\infty}^\infty \frac{\partial f(x|\theta)/\partial\theta}{f(x|\theta)}f(x|\theta)dx = \int_{-\infty}^\infty \frac{\partial \log f(x|\theta)}{\partial\theta}f(x|\theta)dx=E\left[\frac{\partial\log f(X;\theta)}{\partial\theta}\right]$$
となることから明らか.
またこれは,
$$I(\theta) = -E\left[\frac{\partial^2}{\partial\theta^2}l(\theta)\right]$$
としても計算可能です.なぜならば,
$$0 = \int_{-\infty}^\infty \frac{\partial \log f(x|\theta)}{\partial\theta}f(x|\theta)dx$$
にて,両辺をさらに$\theta$でもう一度微分(合成関数の微分であることに注意)すると,

\begin{align*}
0 &= \int_{-\infty}^\infty \frac{\partial^2 \log f(x|\theta)}{\partial\theta^2}f(x|\theta)dx+\int_{-\infty}^\infty \left(\frac{\partial \log f(x|\theta)}{\partial\theta}\right)^2f(x|\theta)dx\\
&= E\left[\frac{\partial^2 \log f(x|\theta)}{\partial\theta^2}\right] + E\left[\left(\frac{\partial \log f(x|\theta)}{\partial\theta}\right)^2\right]\\
&= E\left[\frac{\partial^2 
}{\partial\theta^2}l(\theta)\right] + I(\theta)\
\end{align*}

と変形できるからです.一般的に,
$$I(\theta) = -E\left[\frac{\partial^2}{\partial\theta^2}l(\theta)\right]$$
の方が,定義よりも計算しやすい(らしい)です.以上のことから,フィッシャー情報量は,
$$\left(\frac{\partial \log f(x|\theta)}{\partial\theta}\right)^2\ or\ -\frac{\partial^2 \log f(x|\theta)}{\partial\theta^2}$$
を確率密度の各点を重みとした,重み付き平均とみなすことができます.そのため,これらの導関数がpdfの平均付近に集中すればするほど,未知母数$\theta$についての多くの情報を得ることができます.(後述するクラメールラオの不等式から分かるように,フィッシャー情報量は大きいほど嬉しいものです.)
また,$\partial\log f(X;\theta)/\partial\theta$を確率変数とみなすと,

\begin{align*}
I(\theta) &= E\left[\left(\frac{\partial}{\partial\theta}l(\theta)\right)^2\right]\\
&=E\left[\left(\frac{\partial}{\partial\theta}l(\theta)\right)^2\right] - \left(E\left[\frac{\partial}{\partial\theta}l(\theta)\right]\right)^2\\
(&\because E\left[\frac{\partial}{\partial\theta}l(\theta)\right]=0)\\
&= V\left(\frac{\partial\log f(X;\theta)}{\partial\theta}\right)
\end{align*}

と変形できることから,フィッシャー情報量は,この確率変数の分散であることがわかります.
ちなみに,この確率変数の実現値
$$\frac{\partial\log f(x;\theta)}{\partial\theta}$$
は,スコア関数と呼ばれています.
 今までの話は,確率変数$X$が一つの場合の話でした.これをpdf$f(x;\theta)$からのサイズnの無作為標本$X_1,X_2,\ldots,X_n$の話に拡張することができます.iid標本であることから,単に尤度関数が変わるだけなので,先ほどの確率変数は,
$$\frac{\partial\log f({\bf x};\theta)}{\partial} = \frac{\partial\sum_{i=1}^n\log f(x_i;\theta)}{\partial} = \sum_{i=1}^n\frac{\partial\log f(x_i;\theta)}{\partial}$$
と書き換えることができて,この場合の分散は,各標本が独立な同分布からの標本であることから,

$$V\left(\frac{\partial\log f({\bf x};\theta)}{\partial}\right) = nI(\theta)$$

のように,n倍のフィッシャー情報量となります.

2.2 情報理論的な見方-カルバック・ライブラー情報量としてFIを見る-

 カルバック・ライブラー情報量(増加情報量とも呼ばれる)は二つの分布の近さ($\approx$類似度?)をはかる指標です.距離の公理のうち,対称性を満たさないため,厳密には距離ではありません.ある二つの確率分布をそれぞれP,Qとすると,

\begin{align*}
KL(P||Q) = \left\{\begin{array}{l}
\sum_x P(x)\log\frac{P(x)}{Q(x)}\ (X:discrete)\\
\int_{-\infty}^{\infty} p(x)\log\frac{p(x)}{q(x)}dx\ (X:continuous)
\end{array}\right.
\end{align*}

のように表されます.これは,$X$の事前分布$Q$を事後分布$P$で置き換えることから生じる情報量の増加を意味しています.より詳細には,稲垣「数理統計学」を参照.このKLを用いると,同じ分布族間の母数による違いは,
$$KL_f(\theta_0||\theta_1):= KL(f(\cdot;\theta_0)||f(\cdot;\theta_1))$$
と表すことができ,特に,母数$\theta$の近傍におけるKL情報量
$$KL_f(\theta||\theta+h)$$
のhが小さい時,
$$\underset{h\rightarrow 0}{\lim}\frac{1}{h^2}KL(\theta||\theta+h) = \frac{1}{2}I(\theta)$$
のように,フィッシャー情報量と比例関係にある.詳細は,稲垣「数理統計学」を参照.このことから,フィッシャー情報量は,分布族の母数の局所的な変化によって得られる情報量とも解釈できます.

2.3 クラメールラオの下限

今回は,$Y:= u(X_1,X_2,\ldots,X_n)$が母数$\theta$の不偏推定量であるとします.適当な正則条件のもとで,推定量$Y$の分散は,
$$V(Y)\ge \frac{1}{nI(\theta)}$$
のように下限を持ちます.これがクラメールラオの下限です.この下限を達成するような不偏推定量$Y$が存在するならば,有効推定量(efficient estimator)と呼び,パラメータの不偏推定量の分散と,クラメールラオの下限の比を効率(efficiency)と呼びます.ここで,必ずしも,下限を達成する不偏推定量が存在するわけではないということに注意しましょう.また,クラメールラオの下限は,
$$nI(\theta)\ge \frac{1}{V(Y)}$$
と書き換えられるため,フィッシャー情報量が大きいということは,(不等号なので必ずしも言えませんが,もし等号成立するなら)推定量の分散が小さいということを表しています.そのため,フィッシャー情報量は大きければ良いものだということがわかります.

3. まとめ

フィッシャー情報量は,母数$\theta$に関する局所的な情報量と解釈されたり,確率変数$\partial\log f(X;\theta)/\partial\theta$の分散とも解釈されたりします.FIを用いて,クラメールラオの下限を
表すことができ,クラメールラオの下限と不偏推定量の分散の比(=効率)によって,どの程度推定量が有効推定量に近いかを定量化できます.

4. 最後に.

変なこと書いていたらすみません.できれば,ご指摘or理解を正すための文献を紹介してください.

参考文献