分散の意味

1381 ワード

統計学機械学習数学機械学習テキストリンク

分散とは何か

データがどれだけばらついているのかを一目で分かるようにするための指標が分散です。

　-分散の「あるべき性質」-
　①全て同じデータのときは、ばらついていないので分散は０になるべき
　②データがばらついているほど、分散は大きくなるべき
　③データを平行移動しても、ばらつきは変わらないので分散も不変であるべき

　最低限これらを満たすように、自然に定義する必要があります。

分散の定義

ばらつきといっても、どこかに基準を置いて計算しないと定義もできません。そこで平均値を基準として「個別データが平均からどれだけ離れているか」を考えます。今、データ$x_1～x_n$の平均を$\bar{x}$と書くことにします。このときデータの分散を下記のように定義します。
$$\frac{1}{n}\sum_{i=1}^{n}(x_i-\bar{x})^2　　（１）$$

これは、「平均値との誤差の２乗」をデータ個数$n$で割っているので「平均値との誤差の２乗」の平均といえます。

なぜ2乗するのか

「個別データと平均の差」をばらつき具合の基準とするならば、２乗せずに絶対値を使ってもいい気がします。２乗として定義されるのは理由があります。

　・絶対値だと符号を気にしないといけない
　・２乗の方が遠いデータがあったときに分散をより大きく押し上げる

ちなみに（１）の分散の定義を見ると、記事の一番上に書いた「あるべき性質」は満たします。③の平行移動については、データを$+a$移動すると平均も$+a$され（１）で$$\frac{1}{n}\sum_{i=1}^{n}((x_i+a)-(\bar{x}+a))^2=\frac{1}{n}\sum_{i=1}^{n}(x_i-\bar{x})^2$$なので成立します。

確率で考える場合

これまでは単純にデータの個数で計算しましたが（つまり均等確率）、データ$x_1～x_n$に対応する確率$p_1～p_n$で考えるときの定義は下記の通りです。
$$\sum_{i=1}^{n}(x_i-\bar{x})^2×p_i　（２）$$

（２）の$p_i$を均等割合$\frac{1}{n}$にしたのが（１）なので、（２）は（１）を一般化したものといえます。

Author And Source

この問題について(分散の意味), 我々は、より多くの情報をここで見つけました https://qiita.com/akatin/items/8feb99078b75ac615c09

著者帰属：元の著者の情報は、元のURLに含まれています。著作権は原作者に属する。

Content is automatically searched and collected through network algorithms . If there is a violation . Please contact us . We will adjust (correct author information ,or delete content ) as soon as possible .

サーブレット学習4:redirectとforward

フィルタ(3)フィルタのライフサイクル