2つの分類変数が互いに独立している検査


1列表検査
  • の実例
  • 殺人犯の種族が死刑判決に影響を及ぼすかどうか.1976-1977年の米フロリダ州20地域殺人事件の674人の被告を調査し、白人と黒人の人種を考慮し、死刑を言い渡すかどうかを明らかにした.調査後、既存データを表形式にまとめる
  • Table 1:人種死刑データ
     
    白人
    黒人
    はい
    53
    15
    いいえ
    430
    176
    死刑率
    11.0
    7.9
  • 死刑が殺人犯の人種と関係があるかどうかを試す
    a<-matrix(c(53,430,15,176),ncol=2)
    chisq.test(a)
    
            Pearson's Chi-squared test with Yates' continuity correction
    
    data:  a
    X-squared = 1.1447, df = 1, p-value = 0.2847
    
  • 死刑判決は人種と顕著な関係がないことを示している
  • 死刑判決表の詳細
    被害者種族
    被告人種族
    死刑
     
    死刑率
    白人
    白人
    53
    414
    11.3
     
    黒人
    11
    37
    22.9
    黒人
    白人
    0
    16
    0
     
    黒人
    4
    139
    2.8
    小計
    白人
    53
    430
    11.0
     
    黒人
    15
    176
    7.9
  • 条件を考慮して被害者を白人とする
    Table 2:死刑判決分表の被害者は白人
    被害者種族
    被告人種族
    死刑
     
    白人
    白人
    53
    414
     
    黒人
    11
    37
    a<-matrix(c(53,11,414,37),ncol=2)
    chisq.test(a)
    
            Pearson's Chi-squared test with Yates' continuity correction
    
    data:  a
    X-squared = 4.3416, df = 1, p-value = 0.03719
    

  • 被害者を黒人と考える
    Table 3:死刑判決分表の被害者は黒人
    被害者種族
    被告人種族
    死刑
     
    黒人
    白人
    0
    16
     
    黒人
    4
    139
    a<-matrix(c(0,4,16,139),ncol=2)
    chisq.test(a)
    
            Pearson's Chi-squared test with Yates' continuity correction
    
    data:  a
    X-squared = 0, df = 1, p-value = 1
    
        :
    In chisq.test(a) : Chi-squared         
    

  • シンプソンパラドックス
  • 境界関連の結果と条件関連の結果方向が矛盾する場合をシンプソンパラドックス(Simpson's paradox)
  • と呼ぶ.
  • 統計学者はよくそれを用いてXからYへの関連を警告して因果関係の危険性
  • を推論する.
  • 例えば医学者が喫煙と肺癌の関係を観察する場合、R.A.Fisherなどの統計学者は、遺伝子要因などの他の変数が存在する可能性があると強調し、それに応じてコントロールされた場合に喫煙と肺癌の関連が消失する
  • と強調した.
  • R.A.Fisherこの問題における立場は多くの学者の攻撃を受けた

  • 2両属性変数が互いに独立していることを検証する一般的な状況
  • 一般的な統計モデル
  • ランダム変数X,Yはそれぞれx 1,⋯,xp,y 1,⋯,yq
  • をとる.
  • 実際から抽出したサンプルは統計的に以下の
  • である.
    Table 4:カラムテーブルデータ
    X/Y
    y1
    ….
    yj

    yq
     
    x1
    n11

    n1j

    n1q
    n1.






     
    xi
    ni1

    nij

    niq
    ni.






     
    xp
    np1

    npj

    npq
    np.
     
    n.1

    n.j

    n.q
    n
    ここでn=Σi=1 pΣj=1 qnij
  • 検査統計量とその分布
  • 検査統計量を取る
    χ2=∑i=1p∑j=1q(nij−ni.n.jn)2ni.n.jn
  • は、元の仮定:X,Yが関連しない条件下で
    χ2∼χ2((p−1)(q−1))
  • その自由度はpq−1−(p−1)−(q−1)=pq−p−q+1=(p−1)(q−1)
  • である.