機械学習の基礎3 確率・統計メモ


機械学習の基礎(確率・統計)を備忘録として残しておく。

場合の数、反復試行

n個の中からr個を選んで順序をつける組み合わせ
$\displaystyle {}_nP _r = \frac{n!}{(n-r)!}$

n個の中からr個を選ぶ組み合わせ
$\displaystyle {}_nC _r = \frac{n!}{r!(n-r)!}$

ある事象(ベルヌーイ試行)が起きる確率をp、起きない確率をqとした時、n回やって事象がk回起こる確率
${}_nC _kP^kq^{n-k}$
*$B(n,p)$とも表現する。期待値$E[X]=np$、分散$V[X]=np(1-p)$である。

ベイズの定理

$\displaystyle P(B|A) =\frac{P(B)P(A|B)}{P(A∩B_1)+P(A∩B_2)+ ... +P(A∩B_k)}=\frac{P(B)P(A|B)}{\sum_{j=1}^{k}P(B_j)P(A|B_j)} $
(導出)
$\displaystyle P(A|B) = \frac{P(A∩B)}{P(B)} $
なので、
$P(A∩B) = P(B)P(A|B)$
すると、
$\displaystyle P(B|A) = \frac{P(A∩B)}{P(A)} = \frac{P(B)P(A|B)}{P(A)}$

ここで、$P(A) = P(A∩B_1)+P(A∩B_2)+ ... +P(A∩B_k)$ と書けるので、
$\displaystyle \frac{P(B)P(A|B)}{P(A)} = \frac{P(B)P(A|B)}{P(A∩B_1)+P(A∩B_2)+ ... +P(A∩B_k)} =\frac{P(B)P(A|B)}{\sum_{j=1}^{k}P(B_j)P(A|B_j)} $

k = 2 の場合は、
$\displaystyle P(B|A) = \frac{P(B)P(A|B)}{P(B)P(A|B) + P(\overline B)P(A|\overline B)} $

演習

1) 7人から、マネージャー、リーダー、書記の3人を決める場合の総数は?
$\displaystyle {}_7P _3 = \frac{7!}{(7-3)!} = 7・6・5 = 210 $

2) 7人から、3人を選ぶ場合の総数は?
$\displaystyle {}_7C _3 = \frac{7!}{3!(7-3)!} = \frac{7・6・5}{3・2・1} = 35$

3) 以下の赤い経路において、左下から右上に至る最短経路は何通りか?

全7回中、右を4回選ぶことになるので、
$\displaystyle {}_7C _4 = \frac{7!}{4!(7-4)!} = \frac{7・6・5}{3・2・1} = 35$

4) じゃんけんで勝つ確率が$\frac{1}{3}$の時、3回じゃんけんして1回勝つ確率は?
${}_nC _kP^kq^{n-k} = \displaystyle _3 C_1・ (\frac{1}{3})^1・(\frac{2}{3})^2 = \frac{4}{9} $

5)あるクラスに男子が10人、女子が7人いる。 男子の5人、女子の3人が東京出身である。このクラスから1人を無作為に選んだところ、東京出身だった。その人が女子である確率を求めよ。
東京出身者は全員で8人、その内女子は3人なので、$\displaystyle \frac{3}{8} $

(ベイズ確率)
東京出身である確率を$P(A)$、女子である確率を$P(B)$とすると、

$\displaystyle P(A) = \frac{8}{17}$ $\displaystyle P(B) = \frac{7}{17}$ $\displaystyle P(A|B) = \frac{3}{7}$

よって

$\displaystyle P(B|A) = \frac{P(B)P(A|B)}{P(A)} = \frac{\frac{7}{17}・\frac{3}{7}}{\frac{8}{17}}= \frac{3}{8} $

6) 1から3の目が赤色で塗られており、4から6の目は青色で塗られているさいころがある。今、このさいころを投げて青色の目が出た時、この目が偶数である確率は?
青の時に偶数の確率は、4,5,6の目のうち、4,6なので答えは $\displaystyle \frac{2}{3}$

(ベイズ確率)
A:青、 B:偶数 とすると、

$\displaystyle P(A) = \frac{1}{2}$ $\displaystyle P(B) = \frac{1}{2}$ $\displaystyle P(A|B) = \frac{2}{3}$

よって

$\displaystyle P(B|A) = \frac{P(B)P(A|B)}{P(A)} = \frac{\frac{1}{2}・\frac{2}{3}}{\frac{1}{2}}= \frac{2}{3} $

7) Aさんは平日は5日のうち2回、土日は2日のうち1回運動する。Aさんが運動した時、土日である確率は?
Aさんが運動する確率を$P(A)$、土日である確率を$P(B)$とすると、
$\displaystyle P(B) = \frac{2}{7}$ $\displaystyle P(\overline B) = \frac{5}{7}$ $\displaystyle P(A|B) = \frac{1}{2}$ $\displaystyle P(A|\overline B) = \frac{2}{5}$

$\displaystyle P(B|A) = \frac{P(B)P(A|B)}{P(B)P(A|B) +P(\overline B)P(A|\overline B)} $

    $ \displaystyle = \frac{\frac{2}{7}・\frac{1}{2}}{\frac{2}{7}・\frac{1}{2} + \frac{5}{7}・\frac{2}{5}} = \frac{1}{3} $

8) 箱1には赤玉4つと白玉1つが入っており、箱2には赤玉2つと白玉3つが入っている。箱1と2の区別がつかない箱があり、そこから無作為に1つ玉を取り出しては戻すという試行を3回行った。赤→白→赤と玉が出た場合、この箱が箱1である確率は?

$H_1$:箱1から玉を取り出す、$H_2$:箱2から玉が取り出す、$R$:取り出した玉が赤色、$W$:取り出した玉が白色とすると、

$P(R | H_1) = \frac{4}{5}$ 、$P(W | H_1) = \frac{1}{5}$、$P(R | H_2) = \frac{2}{5}$、$P(W | H_2) = \frac{3}{5}$

(1回目)
事前確率は、
$P_1(H_1) = \frac{1}{2}$、 $P_1(H_2) = \frac{1}{2}$
$\displaystyle P_1(H_1 | R) = \frac{P_1(H_1)P(R | H_1)}{P_1(H_1)P(R | H_1) + P_1(H_2)P(R | H_2)} \displaystyle = \frac{\frac{1}{2}・\frac{4}{5}}{\frac{1}{2}・\frac{4}{5} + \frac{1}{2}・\frac{2}{5}} = \frac{2}{3} $

(2回目)
1回目の試行から事前確率は、
$P_2(H_1) = \frac{2}{3}$、 $P_2(H_2) = \frac{1}{3}$
$\displaystyle P_2(H_1 | W) = \frac{P_2(H_1)P(W | H_1)}{P_2(H_1)P(W | H_1) + P_2(H_2)P(W | H_2)}= \frac{\frac{2}{3}・\frac{1}{5}}{\frac{2}{3}・\frac{1}{5} + \frac{1}{3}・\frac{3}{5}} = \frac{2}{5} $

(3回目)
2回目の試行から事前確率は、
$P_3(H_1) = \frac{2}{5}$、 $P_3(H_2) = \frac{3}{5}$
$\displaystyle P_3(H_1 | W) = \frac{P_3(H_1)P(R | H_1)}{P_3(H_1)P(R | H_1) + P_3(H_2)P(R | H_2)}= \frac{\frac{2}{5}・\frac{4}{5}}{\frac{2}{5}・\frac{4}{5} + \frac{3}{5}・\frac{2}{5}} = \frac{4}{7} $

9) あるメールを調べたら、以下の単語が以下の確率で迷惑メールと通常メールに分類された。
単語; 迷惑メールの確率; 通常メールの確率
秘密; 0.7; 0.1
無料; 0.7; 0.3
統計; 0.2; 0.5
確率; 0.1; 0.4
また、すべてのメールにおいて、迷惑メールの確率は0.6、通常メールの確率は0.4であった。ここで、あるメールを調べると、「統計、確率」が検出された。このメールは迷惑メールと通常メールとどちらに分類したら良いか?

$H_1$:迷惑メール、$H_2$:通常メール
$D_1$:秘密を含む、$D_2$:無料を含む、$D_3$:統計を含む、$D_4$:確率を含む、とすると
$P(D_1 | H_1) = 0.7$、 $P(D_1 | H_2) = 0.1$
$P(D_2 | H_1) = 0.7$、 $P(D_2 | H_2) = 0.3$
$P(D_3 | H_1) = 0.2$、 $P(D_3 | H_2) = 0.5$
$P(D_4 | H_1) = 0.1$、 $P(D_4 | H_2) = 0.4$
事前確率は、$P_1(H_1) = 0.6$、$P_1(H_2) = 0.4$

「統計」という単語$D_3$が含まれるメールを受信した時の迷惑メール・通常メールそれぞれの事後確率を考えると、

$\displaystyle P_1(H_1 | D_3) = \frac{P(D_3 | H_1)P_1(H_1)}{P_1(D_3)}$・・・①

$\displaystyle P_1(H_2 | D_3) = \frac{P(D_3 | H_2)P_1(H_2)}{P_1(D_3)}$・・・②

①②より、  
$\displaystyle \frac{P_1(H_1 | D_3)}{P_1(H_2 | D_3)} = \frac{P(D_3 | H_1)P_1(H_1)}{P(D_3 | H_2)P_1(H_2)}$

「統計」という単語のあとに、「確率」という単語$D_4$が含まれるメールを受信した時の迷惑メール・通常メールそれぞれの事後確率を考えると、

$\displaystyle \frac{P_2(H_1 | D_4)}{P_2(H_2 | D_4)} = \frac{P(D_4| H_1)P_2(H_1)}{P(D_4 | H_2)P_2(H_2)}$となる。

ここで、事前確率$P_2(H_1)$、$P_2(H_2)$を統計という単語が検出された際の事後確率にすると、

$\displaystyle \frac{P_2(H_1 | D_4)}{P_2(H_2 | D_4)} = \frac{P(D_4 | H_1)P_1(H_1 | D_3)}{P(D_4 | H_2)P_1(H_2 | D_3)}$

     $\displaystyle = \frac{P(D_4 | H_1)P(D_3 | H_1)P_1(H_1)}{P(D_4 | H_2)P(D_3 | H_2)P_1(H_2)}$

よって、

$\displaystyle \frac{P_2(H_1 | D_4)}{P_2(H_2 | D_4)} = \frac{0.1・0.2・0.6}{0.4・0.5・0.4} = \frac{0.012}{0.08}$

従って、$P_2(H_1 | D_4) < P_2(H_2 | D_4)$より、 通常メールに分類する方が良い。

10) 以下をグラフィカルモデルで示せ。
$p(a,b,c,d,e) = p(a)p(b|a)p(c|a,b)p(d|b)p(e|c)$

11)二項分布は試行回数を$n$、成功する確率を$p$とすると、期待値は$np$、分散は$np(1-p)$で表せる。 今、$E[X]=10$、$V[X]=6$の時、二項分布$B(n,p)$を求めよ
$E[X] = np = 10$
$V[X] = np(1-p) = 6$より
$p = 0.4$、$n=25$
よって、$B(25, 0.4)$

12) $X$が次の確率密度関数$f(x)$を持つ分布に従う時、$a$の値を求めよ。

確率密度関数の面積の合計は1になるので、
$\displaystyle \int_{-\infty}^\infty f(x) = \displaystyle \int_0^1ax^2dx$

     $ = \displaystyle \left[ \frac{ax^3}{3}\right]_0^1$

     $ = \displaystyle \frac{a}{3} = 1$

よって、$a=3$