分散の意味


目次

・分散とは何か
・分散の定義
・なぜ2乗するのか
・確率で考える場合

分散とは何か

データがどれだけばらついているのかを一目で分かるようにするための指標が分散です。

 -分散の「あるべき性質」-
 ①全て同じデータのときは、ばらついていないので分散は0になるべき
 ②データがばらついているほど、分散は大きくなるべき
 ③データを平行移動しても、ばらつきは変わらないので分散も不変であるべき

 最低限これらを満たすように、自然に定義する必要があります。

分散の定義

ばらつきといっても、どこかに基準を置いて計算しないと定義もできません。そこで平均値を基準として「個別データが平均からどれだけ離れているか」を考えます。今、データ$x_1~x_n$の平均を$\bar{x}$と書くことにします。このときデータの分散を下記のように定義します。
$$\frac{1}{n}\sum_{i=1}^{n}(x_i-\bar{x})^2  (1)$$

これは、「平均値との誤差の2乗」をデータ個数$n$で割っているので「平均値との誤差の2乗」の平均といえます。

なぜ2乗するのか

「個別データと平均の差」をばらつき具合の基準とするならば、2乗せずに絶対値を使ってもいい気がします。2乗として定義されるのは理由があります。

 ・絶対値だと符号を気にしないといけない
 ・2乗の方が遠いデータがあったときに分散をより大きく押し上げる

ちなみに(1)の分散の定義を見ると、記事の一番上に書いた「あるべき性質」は満たします。③の平行移動については、データを$+a$移動すると平均も$+a$され(1)で$$\frac{1}{n}\sum_{i=1}^{n}((x_i+a)-(\bar{x}+a))^2=\frac{1}{n}\sum_{i=1}^{n}(x_i-\bar{x})^2$$なので成立します。

確率で考える場合

これまでは単純にデータの個数で計算しましたが(つまり均等確率)、データ$x_1~x_n$に対応する確率$p_1~p_n$で考えるときの定義は下記の通りです。
$$\sum_{i=1}^{n}(x_i-\bar{x})^2×p_i (2)$$

(2)の$p_i$を均等割合$\frac{1}{n}$にしたのが(1)なので、(2)は(1)を一般化したものといえます。