【統計学】信頼区間と偏向報道指数【区間推定】(書きかけ)


0. はじめに

工科系大学での女子優遇措置を(ほとんど)報道しない一方で、
医科系大学で男子優遇措置が発覚すると盛大に女性差別としてお祭り騒ぎにするといった、マスコミの報道姿勢に関しては疑問をいだかざるを得ない。
その他にも、DV被害者を保護する施設DVシェルターの男女比が極端に女性に偏っている現状を放置しておきながら、男性の育児休暇取得だの、専業主夫だのを標語として上っ面だけの性平等を訴える報道についても合理性に欠ける。
さらに残念ながら偏向報道は性平等だけの問題ではないようで、インターネットでは近隣諸国との関係などでも問題視する声が挙がっている。また、メディアスクラムの問題をメディア自身が積極的に報道するということも考えにくいため、ここでも偏向報道の生じる余地があるだろう。
属性AとB=A~(属性Aに属さないすべての人の集合)との間に十分複雑な対立が生じ、これをマスコミが報道する場合を考えよう。偏向報道については、それを表す客観的な指標が存在しないのが現状であるため、次の式(1)は正立し得ない。
(メディアへかかる圧力の大きさ)∝(偏向報道の大きさ)・・・式(1)

実際には偏向報道に対してより敏感な属性に対してより手厚く配慮された報道が行われることになると考えられる。
(式(2))

(メディアへかかる圧力の大きさ)∝(Aにとっての偏向報道)×(Aの敏感さ)+(Bにとっての偏向報道)×(Bの敏感さ)・・・式(2)

この現状を変え、式(1)のような状態にするためには、偏向報道を客観的に評価する指数が必要だ。

1.区間推定

統計学の「区間推定」を応用する。

区間推定とは、$X~N(μ,σ^2)$として、$X$の値$x$が
$μ-kσ<= x <= μ+kσ$にいる確率$p(μ-kσ<= x <= μ+kσ)$は$k$の関数になるという性質を利用したものである。
次の計算により、$x$と$σ^2$から信頼区間を求めることができるという事実が証明される。
$p(μ-kσ<= x <= μ+kσ) = f(k)$とする。

\begin{align}
&f(k) \\
&= p(μ-kσ<= x かつ x <= μ+kσ) \\
&= p(μ <= x+kσ かつ x-kσ <= μ) \\
&= p(x-kσ <= μ <= x+kσ)
\end{align}

この性質を利用すれば、$μ$の区間を求めることができる。
この$μ$の区間こそ$f(k)$信頼区間である。
したがって、$f(k)$信頼区間を求めることができる。
証明終わり

1-1.区間推定の例

参考[1]の例が参考になる。

1-2.区間推定を式で説明してみる

$norm(x)=N(0,σ^2)$とする。$σ^2$は既知。
区間推定とは、$X$が分布$norm(x-μ)(μは未知)$に従うとわかるとき、$μ$を求めるものである。
$α$信頼区間を求めるためには、以下のようにする。

\frac
{
    \int_{max}^{\infty}norm(x){\rm d}x
}
{
    \int_{\mathbb{R}}norm(x){\rm d}x
}= \frac{1-α}{2}

ここで、$\int_{\mathbb{R}}norm(x){\rm d}x=1$なので、

    \int_{max}^{\infty}norm(x){\rm d}x
= \frac{1-α}{2}

と書きなおせる。
このとき、$α$信頼区間の終点は$max$である。
同様に、

    \int_{-\infty}^{min}norm(x){\rm d}x
= \frac{1-α}{2}

とかける時、$α$信頼区間の始点は$min$である。
以上。

1-3. 区間推定の一般化

1-2で説明した$norm(x)$をより一般的な関数$f(x)$で置き換えて考えてみる。
$f(x)$の原始関数を$F(x)$とする。

\begin{align}
&\lim_{n→\infty} F(n)
をF(∞)と書くことを許すとして、 \\
&F(∞)-F(max)=\frac{1-α}{2} \\
&F(max) = F(∞) - \frac{1-α}{2} \\
&同様の議論により、\\
&F(min) = F(-∞) + \frac{1-α}{2} \\
&\space\space\space\space但し、確率密度関数fの積分つまり累積分布関数Fである以上、\\
&\space\space\space\space F(∞)-F(-∞)=1が必ず成り立つので、\\
&F(min) = F(∞) -\frac{1+α}{2} \\
&\space\space\space\space一様分布区間が存在しないならばFに逆関数が存在するため\\
&\space\space\space\space(∵単調増加)\\
&\space\space\space\space Fを適当に近似して一様分布区間がなかったことにしたF_{diverse}には\\
&\space\space\space\space必ず逆関数F_{diverse}^{-1}が存在する。\\
&したがって\\
&min = F_{diverse}^{-1}\left(F(∞) -\frac{1+α}{2}\right)\\
&max = F_{diverse}^{-1}\left(F(∞) -\frac{1-α}{2}\right)

\end{align} 

以上より、分布$f(x-μ)$に従う確率変数$X$の値が$x$のとき、$μ$は確率$α$で
区間$[F_{diverse}^{-1}\left(F(∞) -\frac{1+α}{2}\right), F_{diverse}^{-1}\left(F(∞) -\frac{1-α}{2}\right)]$内に存在するといえる。(これが$α信頼区間$)

2.偏向報道指数bc=|μ|を言うために

さて、偏向報道を「本来母平均が0であるというのに、報道という名の標本から推定される母平均$μ$の絶対値が大きいこと」とおいてみよう。
この場合、偏向報道指数$bc$は$bc=|μ|$とおける。
その為に、次のような離散確率分布を求め、それを初等関数による連続確率分布とみなせればよい。

  1. 何らかの客観的な評価基準をできるだけたくさん用意する。($n$個)
  2. その基準を$x_i(iは-n/2~n/2)$と名付け、属性Aに有利なものから順に小さな$i$を割り振る。
  3. $x_i$の集まりを連続する変数$X$とみなしこれを横軸とする。但し$x_{-\frac{n}{2}}=-1,x_0=0,x_{\frac{n}{2}}=1$
  4. 縦軸を、相対的な実害の大きさとする。区間$[-1,1]$で積分した結果が1となるようにする。
  5. 4のグラフを、平均が$x=0$になるよう平行移動したものを$f(x)$とし、マスコミの報道した事例のみを抽出した標本から、1-3に示した手法で$μ$を求める。
  6. $μ$の絶対値が偏向報道の大きさであり、符号が、どちらの属性に偏っているかを示す

3.参考資料

[1]https://bellcurve.jp/statistics/course/8888.html

4.最後に

まだまだ定量化できていない部分が非常に大きい。
コメントでアドバイスほしいです!