Excelで統計分析① カイ二乗検定(1/2)


9/21修正:期待度数の算出方法を修正

統計検定2級を苦労して取得したものの、なかなか普段の業務で知識を使うことがなく、このままではせっかく勉強したのにすぐに忘れてしまう。。。
そこで、Excelで統計分析を行う方法を勉強しつつ、復習した内容を残していこうと思います。

まずはカイ二乗検定。
あやふやになっていた適合度の検定と独立性の検定の違いについても、この機会にまとめてみます。

1. カイ二乗検定

カイ二乗検定とは、カテゴリカルデータ※を対象とした検定手法で、カイ二乗分布を用いる検定の総称。

※名義尺度(血液型や性別といった単に分類するために整理番号として数値を割り当てたもの)、
 順序尺度(順位や好き/普通/嫌いといった順序や大小には意味があるが間隔には意味がないもの)からなるデータ

2. 適合度の検定

クロス集計表において、実測度数がある特定の分布に適合(一致)するかどうかを検証する仮説検定

 度数分布表において、実測度数と理論度数のズレを検定統計量とし
 その値がカイ二乗分布の棄却域にあるかどうかで「ズレが偶然かそうでないか」を判断する。

 ・帰無仮説と対立仮説
  𝐻0 :観測度数は理論度数の分布から得られた
  𝐻1 :観測度数は理論度数の分布から得られていない

 ・検定統計量
  n個の階級の度数分布において、i番目の階級の観測度数を、期待度数をとすると
  統計量は自由度のカイ二乗分布に従う

\chi_0^2 = \sum_{i = 1}^n \frac{(O_i - E_i)^2}{E_i}

3. 独立性の検定

クロス集計表において、要素間に関連があるかどうかを検証する仮説検定

 「独立=各セルの生起確率が事象の積に分解できる」との仮定の元で、観測度数と
 期待度数のズレを検定統計量とし、その値がカイ二乗分布の棄却域にあるかどうかで
 「独立の仮定が正しいかどうか」を判断する。

P(A_i\cap B_j) = P(A_i)\cdot P(B_j) 

 ・帰無仮説と対立仮説
  𝐻0 :行と列が独立
  𝐻1 :行と列が独立ではない

 ・検定統計量
  n個の階級の度数分布において、i番目の階級の観測度数をOi、期待度数Eiをとすると
  統計量は自由度のカイ二乗分布に従う

\chi_0^2 = \sum_{i = 1}^n \frac{(O_i - E_i)^2}{E_i}

4. Excelを使用した算出方法

B1 B2 合計
A1 X11 X12 a1
A2 X21 X22 a2
合計 b1 b2 N

①クロス集計表の行合計の構成比率を計算する

B1 B2 合計
合計 b1/N b2/N 1

②周辺和の積を総数で割って期待度数を算出する
 9/21修正:期待度数の算出方法を修正

B1 B2 合計
A1 a1×b1/N a1×b2/N a1×1
A2 a2×b1/N a2×b2/N a2×1

③CHISQ.TEST関数を使用して有意確率(P値)を算出する

 カイ・スクエアド・テスト
 CHISQ.TEST(観測度数の値,期待度数の値)

5. 有意確率(P値)

上記で算出された有意確率(P値)は「変数間の関係性が、どのくらい"たまたま"起こりうるか」を表している。

 P値が大きい場合 : 関係性があるのはたまたまの可能性が高いので、関係性があるとは限らない
 P値が小さい場合 : 関係性があるのはたまたまの可能性が低いので、関係性があると考える

事前に決めた有意水準(誤判断リスクの上限)より低い場合に「関係性がある」と判断する

References

統計WEB
いちばんやさしい、医療統計
Excelで学ぶ 実践ビジネスデータ分析