ラビットチャレンジ - 応用数学 第2章 確率・統計


0.概要

本記事は日本ディープラーニング協会認定の講座プログラムである「ラビット・チャレンジ」が提供している科目の1つである応用数学のレポートである。
記事タイトルに記載のとおり、第2章の確率・統計について以下にまとめる。

統計学は統計検定2級に向けて並行して勉強しているので線形代数よりすんなり進めることができました。一部は講義動画で触れられてないけど振り返りながら書いています。

1.集合

ものの集まりのこと。
※集合の要素のことを人によっては「元(げん)」と呼ぶ。

例えば要素がa~eまである場合

S=\{a,b,c,d,e\}

集合$S$に要素$a$が含まれている場合

a\in{S} \\
or \\
S\ni{a}

集合$S$の中に集合$M$がある場合

M=\{a,b,c\}
\\
M\subset{S} \\
or \\
S\supset{M}

集合$S$に含まれない要素$x$

x\notin{S}

1.1.和集合

集合$A,B$があった時、いずれかに含まれる要素の集合。
イメージとしてはOR
$\cup$は「カップ」と読む。

A\cup{B}

1.2.共通部分

集合$A,B$があった時、両方に含まれる要素の集合。
イメージとしてはAND
$\cap$は「キャップ」と読む。

A\cap{B}

1.3.絶対補

全体集合を$U$とした時、全体集合$U$に含まれる集合$A$に含まれない要素の集合。
集合$A$以外を$\bar{A}$とし、バーは否定を表す。

U\cap\bar{A} \\

1.4.相対補

集合$A,B$があった時、集合$B$に含まれない集合$A$の要素の集合。
絶対補と違い、全体集合を考えない。

B\cap\bar{A} \\

2.確率

2.1.頻度確率(客観確率)

発生する頻度のこと。全数調査すれば確実に把握できる。
例)クジの当選確率が10%。

2.2.ベイズ確率(主観確率)

信念の度合いのこと。様々な条件から主観的に確率を決める。
例)100%間違いない。

2.3.確率の定義

事象$A$が起こる数を$n(A)$、全ての事象の数を$n(U)$とした時、以下のようになる。

P(A)=\frac{n(A)}{n(U)}

$P(\bar{A})$は$P(\bar{A})=1-P(A)$で表すことができる。

$P(A\cap{B})$の確率は以下のようになる。

P(A\cap{B})=P(A)P(B\mid{A}) \\
P(A\cap{B})=P(B\cap{A}) \\
P(A)P(B\mid{A})=P(B)P(A\mid{B})

$P(A\cup{B})$の確率は以下のようになる。

P(A\cup{B})=P(A)+P(B)-P(A\cap{B})

ただ$P(A)$と$P(B)$を足し合わせただけでは重なっている部分が2重になってしまうためその分、引く。

2.4.条件付き確率

ある事象$B$という条件の元、事象$A$に含まれる確率。

P(A\mid{B})=\frac{P(A\cap{B})}{P(B)}=\frac{n(A\cap{B})}{n(B)}

$P(A\cap{B})$:事象$A$と事象$B$が同時に発生する確率。
$P(B)$:事象$B$が発生する確率。

2.5.独立な事象の同時確率

独立とはそれぞれの事象が互いに影響しない(因果関係がない)ことを指す。
同時確率とは複数の事象が同時に発生する確率のことを指す。

独立な事象$A,B$が同時に発生する確率は以下のようになる。

P(A\cap{B})=P(A)P(B\mid{A})=P(A)P(B)

$P(B\mid{A})$は事象$A$という条件の元で事象$B$が発生する確率だが、独立ならば事象$A$は確率に関係ないため、事象$P(B)$と同じとなる。

2.6.ベイズ則

$P(A\cap{B})=P(B\cap{A})$が$P(A)P(B\mid{A})=P(B)P(A\mid{B})$と等価であるため、入れ替えて確率を求めることができる。
例えば

P(A\mid{B})=\frac{P(A)P(B\mid{A})}{P(B)}

3.統計

3.1.記述統計

母集団の性質を要約して記述すること。
いわゆる全数調査。
データが全て揃っている(母集団が既知)ことが条件となる。

3.2.推測統計

母集団の一部である標本から母集団を推測すること。
いわゆる抜き取り調査。
データを全て集めることが困難だったり大変だったりする場合に行う。

3.3.確率変数

事象と結び付けられた数値、または事象そのもののこと。
確率的に変動するだけでプログラムの変数と同じイメージと。

3.4.確率分布

事象が発生する確率の分布のこと。

3.5.期待値

確率変数の確率を考慮した平均値。

離散値の期待値

E(f)=\sum_{k=1}^n{P(X=X_{k})f(X=X_{k})}

連続値の期待値

E(f)=\int{P(X=x)f(X=x)dx}

$P(X=x)$が事象$x$が発生する確率、$f(X=x)$が事象$x$に対する確率変数を表す。

※離散値は0, 1, 2のようないわゆる区分値を表し、連続値はその名の通り連続した値のこと。連続値は無限に細かくできる。

3.6.分散

データの散らばり具合のこと。
各値が期待値からどれだけ離れているかの平均。

Var(f)=E((f_{(X=x)}-E_{f})^2)=E(f_{(X=x)}^2)-(E_{f})^2

講義動画の式の表記に馴染みがなかったので馴染みある形でも表記する。
$n$:データ数
$\mu$:平均or期待値

\sigma^2=\frac{1}{n}\sum_{i=1}^n{(x_{i}-\mu)}^2
\sigma^2=\frac{1}{n}\sum_{i=1}^n{x_{i}^2}-\mu^2

いわゆる偏差平方和$\sum_{i=1}^n{(x_{i}-\mu)}^2$の平均となる。
また、上記の式は$\sigma^2$であるため母分散だが、$n$で割っているところ$n-1$とした場合は不偏分散(単に分散、標本分散とも言う)なる。
詳細は後述する。

ちなみに2乗ではなく絶対値を使った場合は平均偏差になる。

3.7.共分散

2つのデータの傾向の違いのこと。
正の値ならデータが似ていることを表し、$f$も$g$もどちらも大きくなる。
負の値なら似ていないことを表し、$f$は大きくなるが$g$は小さくなる。
0に近いとどちらの関係性も乏しいということを示す。

標準偏差で割ると相関係数になる。

Conv(f,g)=E((f_{(X=x)}-E_{f})(g_{(Y=y)}-E_{g}))=E(fg)-E(f)E(g)

これも別の表記で表してみる。

\sigma_{xy}=\frac{1}{n}\sum_{i=1}^n{(x_{i}-\bar{x})(y_{i}-\bar{y})}
\sigma_{xy}=\frac{1}{n}\sum_{i=1}^n{x_{i}y_{i}}-\bar{x}\bar{y}

$n$で割るか$n-1$で割るかは分散と同じ考え方。

3.8.標準偏差

平方根を取る(2乗を取る)と標準偏差となる。
標準偏差も分散と同様にデータの散らばり具合を表すが、元のデータと単位が揃う(分散は2乗しているため単位が合わない)のでより分かりやすい。

\sigma=\sqrt{\sigma^2}

3.9.確率分布

3.9.1.ベルヌーイ分布

2択の確率分布。
2択の試行をベルヌーイ試行と呼ぶ。
コイントスのイメージ(表or裏)。

P(x\mid\mu)=\mu^x(1-\mu)^{1-x}

$x$:事象($x=0,x=1$)
$\mu$:事象の発生確率。

3.9.2.マルチヌーイ分布(カテゴリ分布、カテゴリカル分布)

2択のベルヌーイ分布に対して複数の事象を表す確率分布。
ダイスのイメージ(1,2,3,4,5,6)

考え方はベルヌーイ分布と基本的に同じ。
発生した事象の確率変数の項以外は0乗となる。

3.9.3.二項分布

ベルヌーイ試行の多施行版、離散型確率分布。
試行回数を$n$、確率を$p$として、$B(n,p)$とも表される。

下記式では以下を表す。
$n$:試行回数
$x$:ある事象$x$の発生回数
$\lambda$:ある事象$x$の発生確率

P(x\mid\lambda,n)=\frac{n!}{x!(n-x)!}\lambda^x(1-\lambda)^{n-x}
\frac{n!}{x!(n-x)!}={}_n C _x

また、試行回数$n$が十分に大きければ正規分布に近似できる(ラプラスの定理)。
中心極限定理とかとか。

Excel等使わずに上記の式を用いてで二項分布を解くのは大変だが、正規分布に近似すれば楽に近似値を求めることができる。
$np$:平均
$np(1-p)$:分散

つまり、以下のように標準化すると標準正規分布に従う。

z=\frac{x-np}{\sqrt{np(1-p)}}

3.9.4.正規分布(ガウス分布)

釣鐘型の連続型確率分布。
平均を中心とし、前後に同じくらいばらついている。
平均を0、標準偏差を1(もちろん分散も1)とする正規分布を標準正規分布と呼ぶ。

$x$:ある事象$x$の確率変数
$\mu$:ある事象$x$の期待値、平均
$\sigma^2$:ある事象$x$の分散

N(x;\mu,\sigma^2)=\frac{1}{\sqrt{2\pi}\sigma}exp\left(-\frac{(x-\mu)^2}{2\sigma^2}\right)

正規分布は$\pm\sigma$に約68%、$\pm2\sigma$に約95%、$\pm 3\sigma$に約99%のデータが存在する。

3.10.推定

標本から母集団の性質を推定すること。

3.10.1.点推定

平均値等を1つの値に推定すること。

3.10.2.区間推定

平均値が存在する範囲を推定すること。

3.10.3.推定量

Estimator。
パラメータを推定するために利用する計算方法や計算式のこと。
推定関数とも呼ぶ。

3.10.4.推定値

Estimate。
試行結果から計算した値のこと。

3.10.5.推定量と推定値

$\hat{\theta}$のようにハットが付いてると推定量または推定値。
例えば$\hat{\theta}(x)$が推定量、$\hat{\theta}$が推定値。
区別する場合もあれば区別しない場合もある。

3.11.標本平均

標本の平均値。

$E(\hat{\theta})$:標本平均

一致性:サンプル数が大きくなるほど母集団の値に近づいていく。
不偏性:サンプル数に関係なく、期待値は母集団の値と同じ(ランダムサンプリング前提)。

3.12.標本分散

標本の分散。
一致性は満たすが、不偏性は満たさないという欠点を持つ。
また、標本分散は母分散より小さくなるが、データ数が増えるほど限りなく母分散に近づいていく。

講義動画では$\sigma^2$となっていますが母分散と区別するために$s^2$としておきます。

s^2=\frac{1}{n}\sum_{i=1}^n{(x_{i}-\bar{x})}^2

$x_{i}$:標本の各値
$n$:データ数
$\bar{x}$:標本平均

3.13.不偏分散

偏差平方和を$n$ではなく$n-1$で割る。

講義動画では詳細に説明ありましたが、「マンガでわかる統計学」の説明が個人的には好きです(まあこっちにも数式チックではないもののゆるい感じに同じ説明がありますが)。
まあ端的に言うとデータあるうちの1つはだいたい平均あたりにあるはずなので平均との差って$n-1$個しかなく、データが100件なら差が99件あることになるがデータが5件なら4件しかないのでデータ数で割っちゃうと多くない?ってことですね。

まあこれに限らず、「マンガでわかる統計学」は最初に読むと問題集で実際に問題解く前にも入りやすかったのでいい本だと思います。
この第2章がわりとスムーズに進められたのはこれのおかげもあると思います。

s^2=\frac{1}{n-1}\sum_{i=1}^n{(x_{i}-\bar{x})}^2

X.ラビットチャレンジとは

ラビットチャレンジとは、日本ディープラーニング協会認定の講座プログラムの1つ。
E資格を受験するためにはこのラビットチャレンジ等、いずれかの講座プログラムを修了しなければならない。

ラビットチャレンジの特徴は「現場で潰しが効くディープラーニング講座」の通学講座録画ビデオを編集した教材を使用した自習スタイルであるという点。
サポートは他の講座より少なく、受け身ではなく自主的に学んでいく姿勢でなければ進められないが、その分、他の講座に比べると安価であり、手が出しやすい。
ある程度知識がある人、自力で頑張るぞというガッツのある人向けではないかと感じる。