適合度の検定と独立性の検定の違い


1. 導入

 適合度の検定と独立性の検定はどちらも理論値(期待度数)を計算して、実現値と理論値のずれを用いた統計量を計算し、カイ二乗検定を行います。この理論値からのズレがカイ二乗分布のどのあたりにあるかで、ズレが偶然起こったものなのか、そうでないのかを判断します。(個人的にごちゃごちゃになっているand友人も誤用していたため、整理します。今回も毎度のごとくお勉強まとめ記事です。)

2. 適合度の検定

 まずはじめに、適合度の検定がおこなわれるような例を考えてみましょう。サイコロを240回投げて、下表のような結果がえられたとします。

1 2 3 4 5 6
38 62 34 46 22 38 240

このサイコロは正常(=各面のでる確率が等しい)でしょうか。有意水準5%で検定してみましょう。この検定問題は、

\begin{align}
H_0:p_i = \frac{1}{6}\ v.s.\ H_1:p_i\ne\frac{1}{6}\\
(i=1,\ldots,6,\sum_{i=1}^6 p_i = 1)
\end{align}

として定式化さます。期待度数は
$$\mbox{期待度数} = \mbox{標本数}\times\mbox{帰無仮説の下での比率}$$
で計算できるので、$H_0$の下でのサイコロの目の出方(=期待度数、理論値)は、
$$240 \times p_i = 240 \times \frac{1}{6} = 30$$
から、

1 2 3 4 5 6
30 30 30 30 30 30 240

となります。この検定では観測値と期待度数が大きくずれている場合、帰無仮説を棄却すると判断したいので、検定統計量Tは、

$$T = \sum \frac{(\mbox{観測値}-\mbox{期待度数})^2}{\mbox{期待度数}}$$

で計算され、これは自由度6-1のカイ二乗分布に従います。表のデータに対して、実際にこれを計算してみると、
$$T = 49.6 > 11.07=\chi^2_5(0.95)$$
となり、有意水準5%でサイコロが正常であるという帰無仮説は棄却されます。つまり、このデータからは、サイコロはゆがんでいると結論付けられました。
 適合度の検定では事象がどのように起こるかの分布を仮定し、その仮定から期待度数を計算し、期待度数と観測度数のズレが有意であるかの検定を行います。もしズレが有意であるならば、仮定した分布は実情に合っていないと判断できます。

3. 独立性の検定

 先ほどと同様に、独立性の検定が行われる例を考えてみましょう。ある都市の女性の1日のテレビ視聴時間は下の表のようでした。

24歳以下 25‐35歳 35歳以上
2時間以内 25 103 52 180
2-3時間 26 39 17 72
3時間以上 29 38 51 108
60 180 120 360

この時、年齢と視聴時間の間に関係はあるでしょうか。有意水準5%で検定しましょう。このときの検定問題は、以下のように定式化されます。

\begin{align}
H_0:\mbox{年齢と視聴時間は独立である} v.s.\ H_1:\mbox{年齢と視聴時間は独立ではない}
\end{align}

ここで、年齢と視聴時間が独立であるとは、観測値の表に対応する確率分布表を

$B_1$ $B_2$ $\cdots$ $B_c$
$A_1$ $p_{11}$ $p_{12}$ $\cdots$ $p_{1c}$ $\sum_{j=1}^cp_{1j}$
$A_2$ $p_{21}$ $p_{22}$ $\cdots$ $p_{2c}$ $\sum_{j=1}^cp_{2j}$
$\vdots$ $\vdots$ $\vdots$ $\vdots$ $\vdots$
$A_r$ $p_{r1}$ $p_{r2}$ $\cdots$ $p_{rc}$ $\sum_{j=1}^cp_{rj}$
$\sum_{i=1}^rp_{i1}$ $\sum_{i=1}^rp_{i2}$ $\cdots$ $\sum_{i=1}^rp_{ic}$ 1

としたとき、

\begin{align*}
p_{ij} &= P(A_i\cap B_j)\\
p_{i.} &:= \sum_{j=1}^cp_{ij} = P(A_i)\\
p_{.j} &:= \sum_{i=1}^rp_{ij} = P(B_j)
\end{align*}

にて、視聴時間$A_i$と年齢$B_j$が独立であるとは,
$$P(A_i\cap B_j) = P(A_i)P(B_j)$$
が成立すること、つまり、
$$p_{ij} = p_{i.}p_{.j}$$
が成り立つことです。これらを踏まえると、帰無仮説の下での確率の推定量と期待度数は、

\begin{align}
&\hat{p}_{ij} = \hat{p}_{i.} \hat{p}_{.j} = \frac{n_{i.}}{n}\frac{n_{.j}}{n}\tag{1}\\
&n\hat{p}_{ij} = \frac{n_{i.}n_{.j}}{n}\tag{2}
\end{align}

となります。但しここで、$n_{ij},n_{i.},n_{.j}$は観測度数の表

$B_1$ $B_2$ $\cdots$ $B_c$
$A_1$ $n_{11}$ $n_{12}$ $\cdots$ $n_{1c}$ $\sum_{j=1}^cn_{1j}$
$A_2$ $n_{21}$ $n_{22}$ $\cdots$ $n_{2c}$ $\sum_{j=1}^cn_{2j}$
$\vdots$ $\vdots$ $\vdots$ $\vdots$ $\vdots$
$A_r$ $n_{r1}$ $n_{r2}$ $\cdots$ $n_{rc}$ $\sum_{j=1}^cn_{rj}$
$\sum_{i=1}^rn_{i1}$ $\sum_{i=1}^rn_{i2}$ $\cdots$ $\sum_{i=1}^rn_{ic}$ n

の各セルの値である。$(1),(2)$式に基づいて視聴時間と年齢のデータから、期待度数を計算すると、

24歳以下 25‐35歳 35歳以上
2時間以内 30 90 60 180
2-3時間 12 36 24 72
3時間以上 18 54 36 108
60 180 120 360

となります。検定統計量Tは先ほどの適合度の検定と同じく、
$$T = \sum \frac{(\mbox{観測値}-\mbox{期待度数})^2}{\mbox{期待度数}}$$
であり、今回は、自由度$(3-1)\times(3-1) = 4$のカイ二乗分布に従います。実際に計算してみると、

$$T = 18.449 > 9.488=\chi^2_4(0.95)$$

となり、有意水準5%で年齢と視聴時間は独立であるという帰無仮説は棄却される。よって、年齢と視聴時間は関連していると結論付けられます。
 独立性の検定では、各セルの生起確率が各事象の確率に分解できること、つまり、
$$P(A_i\cap B_j) = P(A_i)P(B_j)$$
を仮定していました。この仮説のもとで、期待度数を計算し、観測度数と期待度数のずれから、独立の仮定が正しいかどうかを判断します。

4. まとめ

 以上の話を踏まえると、適合度の検定は、事象の分布を仮定としており、独立性の検定は、各セルの生起確率が独立な事象の積に分解できると仮定していることがわかりました。統計量の算出法が似ていること、どちらもカイ二乗分布をつかうことから、紛らわしく感じますが、何を仮定しているかの違いに気を付けると間違えることはなさそうです。

References

小寺平治「明解演習 数理統計」(例をこちらからお借りしました。)
稲垣宣夫「数理統計学」