統計的仮説検定1: 検定とはなんぞや


数理統計学の勉強をしていて、例題やら何やらを解くのが面倒になってきたので、モチベーションを作るためにアウトプットを出しながら勉強することにしました。

ブートストラップ法の記事を書いてから放置していたQiitaですが、これを機に再開したいと思います。

また、今日からしばらくは検定について書いていきたいと考えています。

今回は、まず検定とはどんなものか雰囲気を述べ、数式で書き下し、良い検定とは何か考えていくことにします。

検定の雰囲気

まず初めに検定の雰囲気を書いていきます。
先に雰囲気をつかんで、徐々に細かいことを考えていこうというわけです。

検定は普通の数学における背理法のようなものだと考えてよいと思います。

例えば次のようなシチュエーションを想像してみてください。

■例
今ここに1枚のコインを挟んでAさんとBさんが次のような主張をしています。

Aさん「このコインは公平(表が出る確率と裏が出る確率が等しい)なコインだ!」
Bさん「いや、このコインは裏の方がよく出るコインだ!」

さてこの相反する2つの主張はどちらが正しいのでしょうか?
この議論を結論付ける方法として、

・コインを10回振り、表が3回未満しか出なければ「公平なコインではない」という[ルール]を定め、
・実際にコインを10回振り、その観測値と上に定めたルールに基づいて結論を下す。

という方法が考えられます。これが検定の発想です。

重要な点は「実際には公平なコインだったとしても、表が10回中3回未満しか出ないことはあり得る」ということです。

つまり「起こり得ることだけど、そうなる確率ってどうなってんの?大きいの?小さいの?小さいのならやっぱりおかしいんじゃないの」という判断の仕方をするというのが検定の考え方になります。

つまるところ統計的仮説検定とは、パラメータが属する(パラメータ空間の)部分集合を推定することなので。

もう少し詳しく

検定の雰囲気がわかったところで、もう少し突っ込んだ話をしていきます。

検定は統計学の枠組みの中では、推定に分類されると思います1

検定という行為を数式を用いて定義すると次のようになります。

$M=\bigl\{P_\theta;\theta\in\Theta\bigr\}$ を標本 $X$ の統計モデルとします。ここで $\Theta$ はパラメータ空間です。

また、$\Theta$ の部分集合 $\Theta_0$ と $\Theta_1$ が $\Theta_0\cap\Theta_1=\phi,$ $\Theta_0\cup\Theta_1=\Theta$ を満たすとします。

統計的仮説検定とは、標本 $X$ に基づきパラメータ $\theta$ が $\Theta_0$ と $\Theta_1$ のどちらの部分集合に属するかを推定することをいいます。また、

$\theta$ が $\Theta_0$ に属するという仮説を帰無仮説といい、 $H_0:\theta\in\Theta_0$ と表し、
$\theta$ が $\Theta_1$ に属するという仮説を対立仮説といい、 $H_1:\theta\in\Theta_1$ と表します。

つまり、標本 $X$ に基づきパラメータ $\theta$ が $\Theta_0$ に属すると推定することを帰無仮説を採択するといい、 $\Theta_1$ に属すると推定することを帰無仮説を棄却するというわけです。

イメージはこんな感じですかね。


良い検定とは

統計的仮設検定について雰囲気と定義がわかったところで、良い検定とはどういう検定なのか考えてみます。

■正しい決定とは

アホらしいですが一応...

当たり前ですが正しい決定とは、

帰無仮説が正しい場合に帰無仮説を採択し、対立仮説が正しい場合に帰無仮説を棄却する決定

のことです。

■第1種の過誤と第2種の過誤

帰無仮説が正しい場合に帰無仮説を棄却してしまう誤りのことを『第1種の過誤』といいます。

第1種の過誤の確率だけを小さくしようと考えたならば、どんな時でも帰無仮説を採択してしまえばいいですね。
そうすれば、第1種の過誤の確率は0となります。
帰無仮説をいつでも採択してしまえば、間違って棄却しちゃったということが起こらないからです。

一方で、こうしてしまうと次に説明する第2種の過誤の確率が1になってしまいます。



その『第2種の過誤』とは、対立仮説が正しい場合に帰無仮説を採択してしまう誤りのことをいいます。

第2種の過誤の確率だけを小さくしようと考えたならば、どんな時でも帰無仮説を棄却してしまえばいいですね。
そうすれば、第2種の過誤の確率は0となります。
帰無仮説をいつでも棄却してしまえば、間違って採択しちゃったということが起こらないからです。

しかし、こうしてしまうとやはり第1種の過誤の確率が1になってしまいます。

■良い検定

もうお察しかもしれませんが、良い検定とは「第1種の過誤の確率」と「第2種の過誤の確率」が共に小さい検定のことを言います。


■例:t 検定

今、$2$つの標本 $a$ と $b$ の平均に差があるかを調べたいとします。
神のみぞ知る結論を先にカンニングしておくと、次のようになっています。

$\qquad \qquad a\sim N(50,10)$

$\qquad \qquad b\sim N(50,10)$

御覧の通り、神のみぞ知る結論は $a$ と $b$ の平均に差はないです。
というか$a$ と $b$ の従う分布は全く同じ分布です。

帰無仮説と対立仮説をそれぞれ次のように定めます。

$\qquad \qquad H_0:\mu_a = \mu_b$

$\qquad \qquad H_1:\mu_a ≠ \mu_b$

さて、なんでかよくわからないけど神が舞い降りてきて $a$ と $b$ からそれぞれ10個ずつデータを抽出し、有意水準$0.05$の$t$検定によって平均に差があるか判断することに決めました。
※$t$検定が急に出てきたり話が飛躍していますがお許しを...
※神様は「$a$ と $b$ の従う分布は正規分布だよ、分散の値は教えないけど等しいよ、$t$検定をすればいいよ」等を教えてくれたとしてください...

それではやってみましょう。今回はRを使いました。

# データの生成

a <- rnorm(10, mean=50, sd=10) 
b <- rnorm(10, mean=50, sd=10)   


#等分散を仮定したt検定

t.test(a, b, var.equal=TRUE)

        Two Sample t-test

data:  a and b
t = 1.8429, df = 18, p-value = 0.08187
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -1.410388 21.559806
sample estimates:
mean of x mean of y 
 52.35852  42.28381 

p値は0.08程ですね。これら2つの標本は同じ分布から抽出しているんですよ。
にしてはp値が低すぎるとは思いませんか?

しかし、標本平均は実際

   $\qquad \qquad \hat{\mu}_a = 52.35852$

   $\qquad \qquad \hat{\mu}_b = 42.28381$

と結構違う気がします。

この違う気がするという点が結構大切で、この違いが単に偶然生じたものなのか、意味のある違いなのかを判断することが統計的仮設検定の目的であるとかいてある本もあります(たしか東大出版の赤本にはそう書いてあった気がする。)

(まぁ、この結果を見てp-value > 0.05 だから採択だ!!平均は同じなんだ!!!というのはちょっと乱暴ですが、神のみぞ知る結論としては正しいわけです。こちらとしてもそういう風にルールを定めましたしね。)

ただ1回の実験では信用に値するかわからないので実験回数を1000回にして、どの程度帰無仮説が棄却されるのかをみましょう。

# m・・・棄却した回数
# l・・・採択した回数

 m = 0
 l = 0

 for (i in 1:1000){
    a <- rnorm(10, mean=50, sd=10)
    b <- rnorm(10, mean=50, sd=10)
    t.test(a, b, var.equal=TRUE)
    outi <- t.test(a, b, var.equal=T)
     if (outi$p.value < 0.05){m = m+1}else{l = l+1}
     }

 P = m/(m+l)   # 帰無仮説を棄却した割合
 P
[1] 0.056

$5\%$ぐらいは帰無仮説を棄却してしまうみたいですね。
実際 $a$ と $b$ は同じ分布から生成されているので帰無仮説は正しいです(もっともこれは神のみぞ知る結論ですが)。
それでも$5\%$ぐらいの確率で誤った判断を下してしまうということをこのシミュレーションは言っています。

これが第1種の過誤というやつです。

まとめ

今回は、まず検定とはどんなものか雰囲気を述べ、数式で書き下し、良い検定とは何かを考えました。

次回は、、、どうしよう。。。

★参考★

[1]野田,宮岡:数理統計学の基礎(1992)
[2]藤田:大学生の確率・統計(2010)
[3]薩摩:確率・統計(1989)
[4]間瀬,神保,鎌倉,金藤:工学のためのデータサイエンス入門(2004)