The Vision/統計・機械学習日誌~斯くして、私はデータサイエンティストになるのか~
統計学を学びはじめる #3
Hi!
続きましてはこちら!!
相関係数(correlation coefficient)、最小二乗法(Least Squares Method)
記述統計でめちゃ重要ですね!
<<<用語の整理>>>
・相関(correlation):変数同士の関係性の事。
2変数データを取り扱うときには、変数の間にどんな関係性があるか、調べる必要がある。
・散布図or相関図(scatter diagram):横軸と縦軸に関してのデータの分布を2次元平面にして表した図
右上がりになってるのがわかりますね。二つの変数には正の相関があると。
ここで、見えるかして相関をとらえることはできたから、次は定量的にとらえようと試みる。
ドンぐらい相関の強さがあるのかとかを調べる、相関係数(correlation coefficient)について調べる
・共分散(covariance):相関の正負を表す値。
s_{xy}=\dfrac {1}{n}\sum ^{n}_{i=1}\left( x_{i}-\overline {x}\right) \times \left( y_{i}-\overline {y}\right)
共分散は単位が2乗されてるから、これを両変数の標準偏差で割って、
相関係数(correlation coefficient)
r_{xy}=\dfrac {s_{xy}}{s_{x}s_{y}}=\dfrac {1}{n}\Sigma ^{n}_{i=1}\dfrac {\left( x_{i}-\overline {x}\right) }{s_{x}}\times \dfrac {\left( y_{i}-\overline {y}\right) }{s_{y}}
相関係数は-1から1の間の値をとる。
・回帰:データの関係性を数式に落とし込むこと。
ここでは、回帰直線として2つの変数の関係が"直線になるんじゃね?"って発想で考えている。
こっから、最小2乗法の説明はいるけど、たぶん日本で一番途中式の説明が丁寧だから読んでね☆
直線関係だから、線形関数である、
y=\alpha+\beta x
と予測する。観測したyに対して、回帰直線上に存在して予測されるyの値は
\widehat {y}
と表す。
\widehat {y_{i}}=\widehat {\alpha }+\widehat {\beta }x_{i}
ここで、xは実測値を使ってるから、"x以外の予測値にのみハット記号^がつく。"
マジで計算
・残差(residual):観測と予測の差を残差という。2乗して残差平方和ができる。
残差の式は
e_{i}=y_{i}-\widehat y_{i}
だから、残差平方和は
S\left( \widehat {\alpha },\widehat {\beta }\right) =\sum ^{n}_{i=1}e^{2}_{i}=\sum ^{n}_{i=1}\left( y_{i}-\widehat y_{i}\right)^{2} =\sum ^{n}_{i=1}\left\{ y_{i}-\left( \widehat {\alpha }+\widehat {\beta }x_{i}\right) \right\} ^{2}
残差平方和の値が小さくなれば、予測がそんなに間違ってないということになる。これを小さくしていくのが目的!!
もう20人以上にこれ教えてきたな。
この、残差とか損失とか、"予測とか期待との差の大きさを小さくしていく考えた方"は統計とか、機械学習とかでめちゃ重要だから覚えとこう。でも実は、途中計算ミスって先輩に助けてもらった笑
ありがとう、先輩☆
んで、変数であるα、βを微分して最小値を求める。
求めるんだけど、ここが大変なんだよね。大学生とか。困るやつ。(俺も実際、当時はめちゃレポート苦労した)
\sum ^{n}_{i=1}\widehat {\alpha } =\widehat {\alpha } n
を意識しつつ、
\dfrac {\partial S\left( \widehat {\alpha },\widehat {\beta }\right) }{\partial \widehat {\alpha }} =>
n\widehat {\alpha }+\widehat {\beta }\sum ^{n}_{z=1}x_{i}=\sum ^{n}_{i=1}y_{i}:\left( 1\right)
\dfrac {\partial S\left( \widehat {\alpha },\widehat {\beta }\right) }{\partial \widehat {\beta }} =>
\widehat {\alpha }\sum ^{n}_{z=1}x_{i}+\widehat {\beta }\sum ^{n}_{i=1}x^{2}_{i}=\sum ^{n}_{i=1}x_{i}y_{i}:\left( 2\right)
それぞれ、α、βで微分してここまでは行けると思う。こっからどうやってα、βを求めてくか。
ここで重要なのは、前回紹介した、分散の式
\sigma ^{2}_{x}=\dfrac {1}{n}\sum x^{2}_{i}-\overline {x}^{2}
と
\overline {x}=\dfrac {1}{n}\sum ^{n}_{i=1}x_{i}
これ使う。
⑴/nより
\widehat {\alpha }+\widehat {\beta }\overline {x}=\overline {y}:\left( 3\right)
⑶をα=~の形にして⇒⑵
\begin{aligned}\sum x_{i}y_{i}=\widehat {\beta } \sum x^{2}_{i}+\sum x_{i}\left( \overline {y}-\widehat {\beta }\overline {x}\right) \\ =\left( \sum x^{2}_{i}-\overline {x}\sum x_{i}\right) \widehat {\beta } +\overline {y}\sum x_{i}\end{aligned}
よって、
\sum x_{i}y_{i}-\overline {y}\sum x_{i}=\left( \sum x^{2}_{i}-n\overline {x}\right) \widehat {\beta }
左辺=\sum x_{i}y_{i}-n\overline {x}\overline {y}=n\left( \dfrac {1}{n}\sum x_{i}y_{i}-\overline {x}\overline {y}\right)=n\sigma _{xy}
右辺=n\left( \dfrac {1}{n}\sum x^{2}_{i}-\overline {x}^{2}\right)\widehat {\beta } =n\sigma _{x}^{2}\widehat {\beta }
\therefore \sigma _{xz}=\widehat {\beta }\sigma ^{2}_{x}:\left( 4\right)
⑶と⑷からαも求まるから、
\widehat {\alpha }=\overline {y}-\dfrac {\sigma _{xy}}{\sigma ^{2}_{x}}\overline {x}
以上より、
\therefore y-\overline {y}=\dfrac {\sigma _{xy}}{\sigma ^{2}_{x}}\left( x-\overline {x}\right)
最小二乗法の式
やっとできた笑。
今度、時間あるときPythonで実装するかv
本日は、こんな感じ。大学生どんどんよんでね☆
次回は、確率!
Go Beyond the limits!
Author And Source
この問題について(The Vision/統計・機械学習日誌~斯くして、私はデータサイエンティストになるのか~), 我々は、より多くの情報をここで見つけました https://qiita.com/earthcontrol/items/4d8f8cff992d6b5db9fc著者帰属:元の著者の情報は、元のURLに含まれています。著作権は原作者に属する。
Content is automatically searched and collected through network algorithms . If there is a violation . Please contact us . We will adjust (correct author information ,or delete content ) as soon as possible .