確率・統計のまとめ


この記事は個人的なお勉強用のメモです。

確率

集合

  • 和集合
    「カップ」という。
    $A \cup B$

  • 共通部分
    「キャップ」という。
    $A \cap B$

  • 絶対補
    宇宙すべてから $A$ を除いた集合
    $U - A = \overline{A}$

  • 相対補
    $B$ から $A$ を除いた集合
    $B - A$

確率の定義

\begin{align}
P(A)&=\frac{事象Aが起こる数}{すべての事象}\\
&=\frac{n(A)}{n(U)}
\end{align}
  • 確率の取りうる範囲
0 \leq P(A) \leq 1
  • 余事象の確率
P(\overline{A})=1-P(A)
  • 条件付き確率
    $B$ が起こった条件下で $A$ が起こる確率。
    例:
    雨が降っている条件下で交通事故に遭う確率。
P(A|B)=\frac{P(A\cap B)}{P(B)}
  • 独立な事象の同時確率
    例:
    赤い球と白い球がそれぞれ複数あり、すべての球の表面には番号が書いてある。
    球の色と番号は関係がないので、独立といえる。
P(A\cap B)=P(A)P(B)
  • 和集合の確率と共通部分の確率の関係
    $A$ と $B$ とで重なった部分を引く。
P(A\cup B) = P(A)+P(B)-P(A\cap B)

ベイズの定理

P(B|A) = \frac{P(B)P(A|B)}{P(A)}

個人的には以下の考えの方が理解しやすい。

P(A\cap B) = P(A)P(B|A)\\
P(B\cap A) = P(B)P(A|B)\\
上の2つの左辺は等しいので、右辺同士も等しい。\\
P(A)P(B|A)=P(B)P(A|B)

統計

統計の分類

  • 記述統計
    手元のデータを使って集計する。平均をとる、など。

  • 推測統計
    手元のデータを分析して、手元にないデータ(母集団等)を推計する。 
    標本から母集団の平均を推測する、など。

用語

  • 確率変数
    事象と結びつけられる数値
    事象そのものを表す場合もある。
  • 確率分布
    事象が発生する確率の分布
  • 分散
    データの散らばり具合を表す。
\begin{align}
Var(f)&=E\Bigl( \bigl( f(X=x)-E(f)\bigr)^2\Bigr) \\
&= E\bigl(f^2(X=x)\bigr)-E(f)^2 \quad {二乗の平均}-{平均の二乗}
\end{align}
  • 共分散
    2つのデータ系列の傾向の違いを表す。 似た傾向なら正の値。 逆の傾向なら負の値。
\begin{align}
Cov(f,g)&=E\Bigl( \bigr( f(X-x)-E(f)\bigr)(g(Y=y)-E(g)\bigr) \Bigr)\\
&=E(fg)-E(f)E(g)
\end{align}
  • 標準偏差
    分散の平方根。
    元のデータと単位が同じ。

分布

ベルヌーイ分布

コイン(表または裏)のように、2つの事象のいずれかを取る。
試行回数は1回のみ。(2回以上は二項分布)

P(x|\mu)=\mu^x(1-\mu)^{1-x}

$\mu$:表が出る確率
$1-\mu$:裏が出る確率
$x$:表のとき $1$、裏のとき $0$

マルチヌーイ分布(カテゴリカル分布とも)

複数のカテゴリから1つを抽出した分布。
例:サイコロ

二項分布

ベルヌーイ分布を多試行した分布。

\begin{align}
P(x|\lambda, n)
&=
{}_nC_x\lambda^x(1-\lambda)^{n-x}\\
&=\frac{n!}{x!(n-x)!}\lambda^x(1-\lambda)^{n-x}
\end{align}

$n$:試行回数
$x$:表が出る回数
$\lambda$:表が出る確率
$1-\lambda$:裏が出る確率

ガウス分布(正規分布とも)

  • 釣り鐘状
  • 中央が最も値が大きい
  • 左右分布
  • 左右は無限に広がる
  • 積分すると面積は$1$(確率なので全部足すと$1$)
N(x;\mu,\sigma^2)=\sqrt{\frac{1}{2\pi \sigma^2}}\exp \Biggr(-\frac{1}{2\sigma^2}(x-\mu)^2\Biggl)

真の分布がわからなくても、サンプル数が多ければ多いほど正規分布に近づく。

推定

母集団を特徴づける母数を、統計学的に推測すること。
母数の例:母集団の平均、母集団の分散

点推定:1つの値を推定
区間推定:範囲(区間)を推定(例:平均値の範囲を推定)

  • 推定量(estimator)
    推定のために利用する数値の計算方法や計算式のこと。
    指定関数とも。
    例:微分で得られた導関数

  • 推定値(estimate)
    実際に試行した結果から計算した値。
    関数に値を入れてえら得た数値(微分の場合は傾き)
    真の値を $\theta$ とすると $\hat{\theta}$ のように表す。

  • 標本平均
    標本の平均。
    サンプル数が多いと、母平均に近づく。
    これを一致性という。
    それに対して、サンプル数がいくらあってもその期待値が母集団の値と同じ性質を
    不偏性という。
    標本平均は一致性と不偏性がある。

  • 標本分散
    標本の分散。

\hat{\sigma}^2=\frac{1}{n}\sum_{i=1}^n(x_i-\overline{x})

標本分散は一致性はあるが、不偏性はない。
不偏性がある分散は、普遍分散の方。

s^2=\frac{1}{n-1}\sum_{i=1}^n(x_i-\overline{x})

$n$ ではなく $n-1$ で割る理由は、1つの $\overline{x}$ によって縛られるから。
(自由度が $n-1$ であるという)

演習問題

問3.1

a. さいころの目は、確率変数
b. 試行したときのコインの枚数、これは確率変数ではない
c. 1個取り出したときの色は、確率変数ではない
d. 当たりが出るまで抽選した回数は、確率変数

※ cについて。確率変数かと思ったが、色は数値ではないため、確率変数ではない。
※ dについて。単一の試行に対する結果だけが確率変数ではなく、このように複数の試行の結果も確率変数という。

問3.2

事象 裏0表4 裏1表3 裏2表2 裏3表1 裏4表0
確率変数 4 3 2 1 0
回数 75 300 450 (a) 75
確率 $\frac{1}{16}$ (b) (c) (d) (e)

(a) $1200-(75+300+450+75)=300$

(b) $\frac{300}{1200}=\frac{1}{4}$

(c) $\frac{450}{1200}=\frac{3}{8}$

(d) $\frac{300}{1200}=\frac{1}{4}$

(e) $\frac{75}{1200}=\frac{1}{16}$

問5.1


\begin{align}
条件付き確率 \,
P(雨|洗濯)
&=
\frac{雨かつ洗濯の日数}{洗濯の日数}
\\
&=
\frac{12}{60}
\\
&=
\frac{1}{5}
\end{align}
\begin{align}
同時確率 \,
P(雨,洗濯)
&=
\frac{雨かつ洗濯の日数}{365日}
\\
&=
\frac{12}{365}
\end{align}

問5.2.1

\begin{align}
P(B|赤)&=
\frac{Bかつ赤の個数}{赤の個数}
\\
&=
\frac{1}{3}
\end{align}

問5.2.2

\begin{align}
P(白|A)&=
\frac{白かつAの個数}{Aの個数}
\\
&=
\frac{1}{2}
\end{align}

問7.3

離散型確率分布の期待値

E(f)=\sum P(x)f(x)

問7.4

分散

\begin{align}
Var(f)
&=
E\biggl(\Bigl(f(x)-E\bigl(f(x)\bigr)\Bigr)^2\biggr)\\
&=
E\bigl(f(x)^2\bigr)-E\bigl(f(x)\bigr)^2 \quad {二乗の平均} - {平均の二乗}
\end{align}

修了テスト~練習問題~

問題1(オッズ比)

\begin{align}
オッズ比&=\frac{起こる確率}{怒らない確率}\\
&=\frac{p}{1-p}
\end{align}

問題9(ベイズの定理)

p(x_i|C_0)=0.1\\
p(x_i|C_1)=0.3\\
p(x_i|C_2)=0.4\\
p(C_0)=0.7\\
p(C_1)=0.2\\
p(C_2)=0.1\\

$x_i$ が $C_1$ に属する確率は

\begin{align}
P&=\frac{C_1かつx_iの確率}{すべてのCにおけるx_iの確率}\\
&=\frac{p(C_1)p(x_i|C_1)}{p(C_0)p(x_i|C_0)+p(C_1)p(x_i|C_1)+p(C_2)p(x_i|C_2)}\\
&=\frac{0.2\times 0.3}{0.7\times 0.1 + 0.2\times 0.3 + 0.1\times 0.2}\\
&=\frac{0.06}{0.07+0.06+0.02}\\
&=\frac{6}{15}\\
&=0.4
\end{align}

問題10(ベイズの定理)

12 28
4 20

$p(C_k=白|x=大)$ というのは、大の条件下での白の確率である。

\begin{align}
p(C_k=白|x=大)&=\frac{大かつ白の個数}{大の個数}\\
&=\frac{12}{12+4}\\
&=\frac{12}{16}\\
&=\frac{3}{4}\\
&=0.75
\end{align}

問題14(ベイズの定理)

ベイズの定理の式

p(A|B)=\frac{p(B|A)p(A)}{p(B)}

問題55(確率分布の種類)

あ:サイコロの目は連続していないので、離散型確率分布
い:身長は連続しているのでその条件だけであれば連続型確率分布だが、問題文に小数点以下一桁という条件があるため、離散型確率分布
う:円の中心からの距離は連続型確率分布

問題56(ベルヌーイ分布)

確率変数 $X$ が確率 $p$ で $1$ を、確率 $q=1-p$ で $0$ をとるような分布は
表または裏のコイン投げのような分布であり、試行回数は1回なのでベルヌーイ分布。

問題57(二項分布の平均)

二項分布の平均は $np$ 。

問題58(二項分布の分散)

二項分布の分散は $npq$ 。

問題68(確率密度関数の期待値)

E(X)=\int_{-\infty}^\infty xf(x)dx

期待値は、確率変数とその確率を掛けた値の総和(積分)。

問題69(確率密度関数の条件)

ある関数 $g(x)$ が確率変数 $X$ の確率密度関数となるとき、$g(x)$ が満たさなければいけない条件は、
確率の総和が $1$ であること。

\int_{-\infty}^\infty g(x)dx =1

問題70(確率密度関数の分散)

分散は、{二乗の平均} - {平均の二乗} 。

V(X)=E(X^2)-E(X)^2

問題71(確率密度関数の計算)

i(x)=
\left\{
\begin{array}{ll}
\frac{1}{18}x & (0 \leq x \leq 6) \\
0 & (x \lt 0,6 \lt x)
\end{array}
\right.

$x < 0$ のとき、$i(x)$ の値は $0$ なので、この場合の計算は不要。
$0\leq x \leq 3$ の場合のみを計算する。

\begin{align}
P(x\leq 3)&=\int_0^3 \frac{1}{18}xdx\\
&=\frac{1}{18}\Biggl[\frac{1}{2}x^2\Biggr]_0^3\\
&=\frac{1}{18} \times \frac{1}{2} \times 9\\
&=\frac{1}{4}
\end{align}