[統計学]t-分布、大数の法則、中心極限定理


はじめに

 統計調査をするとき、全数調査ができないときには母集団から標本を抽出して母集団についての推測を行います。推測統計では、母集団になんらかの確率モデルを想定し、抽出したデータをその確率分布に従う確率変数と捉えます。

 用語が多いので、説明はすべて統計WEBの用語集にとぶようにしています。

母集団が正規分布に従うとき

 見出しの通り母集団が正規分布に従うときには、統計量の分布として$t$-分布、$F$-分布、カイ二乗分布があります。ここでは、$t$-分布に触れます。

t-分布

$ $ 
 $t$-分布は、$t$値を$$T=\frac{\overline x -\mu}{\sqrt{\frac{V^2}{n}}}\tag{1}$$と表し、不偏分散$V^2$を使って主に母平均区間推定を行う場合に使います。式(1)は、自由度$(n-1)$の$t$-分布に従います。この事実だけでもいいといえばいいのですが、なにか物足りないのでもう少し説明します。
 $t$-分布は、母集団が正規分布に従うとしたときの標本分布ですので正規分布との関係をみてみます。確率変数$$Z=\frac{\overline x -\mu}{\sqrt{\frac{\sigma^2}{n}}}\tag{2}$$は、標準正規分布$\mathcal N(0,1)$に従います。式(1)の不偏分散を母分散に変えたものですね。$E[Z]=0,V(Z)=1$になることは$\Sigma$記号を用いた定義と分散の性質から確認できます。また$$U=\frac{(n-1)V^2}{\sigma^2}$$とすると、$U$は自由度$(n-1)$のカイ二乗分布に従います(証明は省略)。このとき、式(1)は$$T=\frac{\sqrt{n}(\overline X -\mu)}{V}=\frac{Z}{\sqrt{\frac{U}{n-1}}}$$と書けて、$m=n-1$として$$T=\frac{\sqrt{n}(\overline X -\mu)}{V}=\frac{Z}{\sqrt{\frac{U}{m}}}$$と表せます。このときの$T$を自由度$m$のスチューデントの$t$-分布に従うといいます。確率変数$T$の確率密度関数$f_T(t|m)$はガンマ関数を用いて表すことができて、$m=1$でコーシー分布となり、$m\to \infty$の極限で標準正規分布に収束します。ガンマ関数が関わってくるのは、カイ二乗分布$$f_X(x)=\frac{1}{\Gamma(n/2)}\left(\frac{1}{2}\right)^{\frac{n}{2}}x^{\frac{n}{2}-1}\exp\left(-\frac{x}{2}\right)$$があるためです。

母集団が正規分布に従わないとき

 母集団が正規分布に従わないときは正確な分布を導くことは難しいため、サンプルサイズ$n$が大きいときの近似的な分布を考えます。そのときに役に立つのが大数の法則と中心極限定理です。

大数の法則

$ $
 一言でいうと、「サンプルサイズが大きくなるにつれて標本平均$\overline X$は母平均$\mu$に近づく」というものです。これは、任意の$\epsilon>0$に対して$ n \to \infty $とすると$P(|\overline X-\mu|\ge \epsilon)\to 0 $となる、と表すことができます。標本平均と母平均との差が任意の$\epsilon$より大きくなる確率は0に近づく(差がなくなっていく)ということです。なお、$\lim_{n \to \infty} P(|U_n-U|\ge\epsilon)=0$となることを「確率変数$U_1,U_2,...$が確率変数$U$に確率収束する」といいます。大数の法則はチェビシェフの不等式$$P(|X-\mu|\ge k)\le\frac{\sigma^2}{k^2}$$から証明できます。$X$を平均$\overline X$にして、$n$が分母に来るように式変形してみてください。ただし、$\mu=E[X],\sigma^2=V(X)$が存在すると仮定しています。

中心極限定理

$ $ 
 確率収束とは違い、確率変数$U_1,U_2,...$が確率変数$U$に分布収束するとは$\lim_{n \to \infty} P(U_n\leq x)=P(U\le x)=F_U(x)$が、$F_U(x)$という確率分布の連続点で成り立つことを言います。分布収束の代表例が中心極限定理で、一言でいうと「サンプルサイズ$n$が大きくなるにつれて標本平均$\overline X$の分布は正規分布に近づく」ことです。
定理は次のように表せます:$$\lim_{n\to \infty}P(\overline X\le x)=\int_{-\infty}^x\frac{1}{\sqrt{2\pi \sigma^2}} \exp \left(-\frac{(y - \mu)^2}
{2\sigma^2} \right)dy=\Phi(x) \tag{3}$$
$\Phi(x)$は正規分布$N(\mu,\frac{\sigma^2}{n})$の累積分布関数です。$\overline X$を標準化して$\overline Z=\frac{\sqrt{n}(\overline X - \mu)}{\sigma}$とした場合は、標準正規分布$N(0,1)$の累積分布関数に近づきます。標本平均と母平均の誤差が0に近づくと読み取れます。サンプルサイズ$n$の分散は分母に$n$があるので、$n$が大きいほど正規分布の幅が小さくなる(ばらつきが小さくなる)ことが分かります。

参考文献

「現代数理統計学の基礎」久保川達也氏著