統計メモ:期待値


期待値や分散の計算は非常によく使うので整理。性質は一度納得したら覚えておくとスムーズ

期待値の定義

連続型確率変数$X$に関する$f(X)$ の期待値は

$$
E_{X}[f(X)] = \int_{\mathbb{R}} f(x) p(x) d x
$$
$E_{x}[\cdot]$ は$X$に関して期待値をとる操作

よく使う期待値の性質

1.定数の期待値

定数の期待値は定数になる($a$は定数)

$$
E_{X}[a] = a\
$$

2. 線形性

確率変数が$X$のみの場合

E_{X}[af(X) + bg(X)] = aE_{X}[f(X)] + bE_{X}[g(X)]

複数の確率変数$X, Y$ についても線形性は保たれる

E_{XY}[af(X) + bg(Y)] = aE_{X}[f(X)] + bE_{Y}[g(Y)]

上の式は、$X, Y$が互いに独立でなくても成立する

証明

1. 定数の期待値

\begin{aligned}
E_{X} [ a ] &=\int a p(x) d x \\
&=a \int p(x) d x=a
\end{aligned}

2.線形性

確率変数が$X$のみの場合。期待値は積分(離散変数の場合総和)で定義されているため線形性が保たれる

\begin{align}
E_{x} [a f(x)+b g(x)] &=\int \left\{ af(x)+b g(x) \right\}p(x) dx\\
&=a \int f(x)p(x) d x+b \int g(x)p(x) d x \\
&=a E_{X} [f(x)] + b E_{X}[g(x)]
\end{align}

複数の確率変数$X, Y$ の場合、期待値は同時確率 $p(x, y)$ を使いますが、周辺化されるため結果は単純になる

\begin{align}
E_{XY}\left[f(X)+g(Y)\right] &=\iint \{ f(x)+g(y) \} p(x, y) d x d y \\
&=\iint f(x) p(x, y) d x d y+\iint g(y) p(x, y) d x d y \\
&=\int f(x)[\int p(x, y) d y] d x+\int g(y)[\int p(x, y) d x] d y \\
&=\int f(x) p(x) d x+\int g(y) p(y) d y
\end{align}

2行目から3行目の変形は周辺化 $ p(x)= \int p(x, y)dy$ を用いた

期待値の線形性から和の期待値は期待値の和となるが、これはよく使う

E_{XY}[X + Y] = E_{X}[X] + E_{Y}[Y]

正規分布に従う2つの変数$X$と$Y$ があり、平均がそれぞれ$\mu_{x}, \mu_{y}$ の正規分布に従っているとする

\begin{array}{l}
X \sim \mathcal{N}\left(\mu_{x}, \sigma_{x}^{2}\right) \\
Y \sim \mathcal{N}\left(\mu_{y}, \sigma_{y}^{2}\right) \\
\end{array}

$X$と$Y$の 和の確率変数$X + Y$ の平均は$\mu_{x}+\mu_{y}$ となる

{E[X+Y]=E[X]+E[Y]=\mu_{x}+\mu_{y}}

私がよく分からなくなるのが以下です。
- 何に関しての期待値を取っているのか
- 変数同士の独立を仮定しているのか
日々精進。