The Vision/統計・機械学習日誌~斯くして、私はデータサイエンティストになるのか~


統計学を学びはじめる #3

Hi!

続きましてはこちら!!

相関係数(correlation coefficient)、最小二乗法(Least Squares Method)

記述統計でめちゃ重要ですね!

<<<用語の整理>>>

・相関(correlation):変数同士の関係性の事。
2変数データを取り扱うときには、変数の間にどんな関係性があるか、調べる必要がある。

・散布図or相関図(scatter diagram):横軸と縦軸に関してのデータの分布を2次元平面にして表した図

ちょっと整備してこんな感じ

右上がりになってるのがわかりますね。二つの変数には正の相関があると。

ここで、見えるかして相関をとらえることはできたから、次は定量的にとらえようと試みる。
ドンぐらい相関の強さがあるのかとかを調べる、相関係数(correlation coefficient)について調べる

・共分散(covariance):相関の正負を表す値。

s_{xy}=\dfrac {1}{n}\sum ^{n}_{i=1}\left( x_{i}-\overline {x}\right) \times \left( y_{i}-\overline {y}\right)

共分散は単位が2乗されてるから、これを両変数の標準偏差で割って、

相関係数(correlation coefficient)

r_{xy}=\dfrac {s_{xy}}{s_{x}s_{y}}=\dfrac {1}{n}\Sigma ^{n}_{i=1}\dfrac {\left( x_{i}-\overline {x}\right) }{s_{x}}\times \dfrac {\left( y_{i}-\overline {y}\right) }{s_{y}}

相関係数は-1から1の間の値をとる。

・回帰:データの関係性を数式に落とし込むこと。
ここでは、回帰直線として2つの変数の関係が"直線になるんじゃね?"って発想で考えている。

こっから、最小2乗法の説明はいるけど、たぶん日本で一番途中式の説明が丁寧だから読んでね☆

直線関係だから、線形関数である、

y=\alpha+\beta x

と予測する。観測したyに対して、回帰直線上に存在して予測されるyの値は

\widehat {y}

と表す。

\widehat {y_{i}}=\widehat {\alpha }+\widehat {\beta }x_{i}

ここで、xは実測値を使ってるから、"x以外の予測値にのみハット記号^がつく。"

マジで計算

・残差(residual):観測と予測の差を残差という。2乗して残差平方和ができる。

残差の式は

e_{i}=y_{i}-\widehat y_{i}

だから、残差平方和は

S\left( \widehat {\alpha },\widehat {\beta }\right) =\sum ^{n}_{i=1}e^{2}_{i}=\sum ^{n}_{i=1}\left( y_{i}-\widehat y_{i}\right)^{2} =\sum ^{n}_{i=1}\left\{ y_{i}-\left( \widehat {\alpha }+\widehat {\beta }x_{i}\right) \right\} ^{2}

残差平方和の値が小さくなれば、予測がそんなに間違ってないということになる。これを小さくしていくのが目的!!

もう20人以上にこれ教えてきたな。

この、残差とか損失とか、"予測とか期待との差の大きさを小さくしていく考えた方"は統計とか、機械学習とかでめちゃ重要だから覚えとこう。でも実は、途中計算ミスって先輩に助けてもらった笑
ありがとう、先輩☆

んで、変数であるα、βを微分して最小値を求める。
求めるんだけど、ここが大変なんだよね。大学生とか。困るやつ。(俺も実際、当時はめちゃレポート苦労した)

\sum ^{n}_{i=1}\widehat {\alpha } =\widehat {\alpha } n

を意識しつつ、

\dfrac {\partial S\left( \widehat {\alpha },\widehat {\beta }\right) }{\partial \widehat {\alpha }}  =>  

n\widehat {\alpha }+\widehat {\beta }\sum ^{n}_{z=1}x_{i}=\sum ^{n}_{i=1}y_{i}:\left( 1\right) 
\dfrac {\partial S\left( \widehat {\alpha },\widehat {\beta }\right) }{\partial \widehat {\beta }}  =>  

\widehat {\alpha }\sum ^{n}_{z=1}x_{i}+\widehat {\beta }\sum ^{n}_{i=1}x^{2}_{i}=\sum ^{n}_{i=1}x_{i}y_{i}:\left( 2\right) 

それぞれ、α、βで微分してここまでは行けると思う。こっからどうやってα、βを求めてくか。

ここで重要なのは、前回紹介した、分散の式

\sigma ^{2}_{x}=\dfrac {1}{n}\sum x^{2}_{i}-\overline {x}^{2}

\overline {x}=\dfrac {1}{n}\sum ^{n}_{i=1}x_{i}

これ使う。

⑴/nより

\widehat {\alpha }+\widehat {\beta }\overline {x}=\overline {y}:\left( 3\right) 

⑶をα=~の形にして⇒⑵

\begin{aligned}\sum x_{i}y_{i}=\widehat {\beta } \sum x^{2}_{i}+\sum x_{i}\left( \overline {y}-\widehat {\beta }\overline {x}\right) \\ =\left( \sum x^{2}_{i}-\overline {x}\sum x_{i}\right) \widehat {\beta } +\overline {y}\sum x_{i}\end{aligned}

よって、

\sum x_{i}y_{i}-\overline {y}\sum x_{i}=\left( \sum x^{2}_{i}-n\overline {x}\right) \widehat {\beta }
左辺=\sum x_{i}y_{i}-n\overline {x}\overline {y}=n\left( \dfrac {1}{n}\sum x_{i}y_{i}-\overline {x}\overline {y}\right)=n\sigma _{xy}
右辺=n\left( \dfrac {1}{n}\sum x^{2}_{i}-\overline {x}^{2}\right)\widehat {\beta } =n\sigma _{x}^{2}\widehat {\beta }
\therefore \sigma _{xz}=\widehat {\beta }\sigma ^{2}_{x}:\left( 4\right) 

⑶と⑷からαも求まるから、

\widehat {\alpha }=\overline {y}-\dfrac {\sigma _{xy}}{\sigma ^{2}_{x}}\overline {x}

以上より、

\therefore y-\overline {y}=\dfrac {\sigma _{xy}}{\sigma ^{2}_{x}}\left( x-\overline {x}\right)

最小二乗法の式

やっとできた笑。

今度、時間あるときPythonで実装するかv

本日は、こんな感じ。大学生どんどんよんでね☆

次回は、確率!

Go Beyond the limits!