検量線再入門 その1 相関係数と決定係数


相関係数, 決定係数とは?

混同されがちな相関係数と決定係数ですが、それぞれの意味は異なります。

  • 相関係数

wikipedia_相関係数より

相関係数(そうかんけいすう、英: correlation coefficient)とは、2つのデータまたは確率変数の間にある線形な関係の強弱を測る指標である。

上記の通り、相関係数は線形な関係の強弱を測る指標であり、例えば曲線など線形以外の関係では使えません。

  • 決定係数

モデルの当てはまりの良さを表す指標。

相関係数, 決定係数の定義

相関係数

相関係数rは、-1≦r≦1となります。

r = \frac{\frac{1}{n}\sum_{i=1}^{n}(x_i-\bar{x})(y_i-\bar{y})}{\sqrt{\frac{1}{n}\sum_{i=1}^{n}(x_i-\bar{x})}\sqrt{\frac{1}{n}\sum_{i=1}^{n}(y_i-\bar{y})}}\\

\bar{x} : xの平均\\ \bar{y} : yの平均

ここで、分母はxとyの共分散、分子はxとyそれぞれの標準偏差となります。

決定係数

決定係数には複数の定義が存在します。(Tarald O. Kvalseth 1985から引用)
決定係数はR^2と表記しますが、場合によっては負値になることもあります。また、定義式によっては1を超えることもあります。

統計ソフトによって採用されている定義式は異なります。詳しくは、決定係数 R2 の違い: Excel, OpenOffice, LibreOffice および統計解析ソフト R を用いてを参照してください。
最もメジャーな定義式は(1)式で、Excelのグラフに表示される決定係数も(1)式になります。
以降で(1)式について詳しく解説します。

決定係数(1-SSE/SST)の解釈

最小二乗法による単回帰の場合について説明します。
(1)式について、2項目の分母を全変動、分子を回帰変動といいます。これらの関係を図示したものが統計WEB_27-4. 決定係数と重相関係数で説明されています。

グラフから、全変動 = 回帰変動 + 残差変動が成り立つことが分かります。
ここで重要な性質は、xとyの平均値は推定された回帰式を満たす(グラフで回帰式の直線状にのっている)ということです。この性質がなければ、上記の全変動 = 回帰変動 + 残差変動は成り立ちません。

xとyの平均値が推定された回帰式を満たす性質について説明します。

単回帰(y=ax+b)の最小二乗法では、誤差εの二乗を最小化するaとbを求めます。


ε^2 = \sum_{i=1}^{n}(y_i - ax_i - b)^2


aとbは解析的に計算でき、誤差の二乗をa, bそれぞれで偏微分した方程式からa, bの値を求めることができます。


\frac{∂}{∂a} = 2\sum_{i=1}^{n}(y_i - ax_i - b)x_i=0\\
\frac{∂}{∂b} = 2\sum_{i=1}^{n}(y_i - ax_i - b)=0

上記の方程式を解くと、以下となります。
aとbの導出については、詳しくは単回帰分析における最小二乗法の解説を参照してください。


a = \frac{\sum_{i=1}^{n}(y_i-\bar{y})(x_i-\bar{x})}{\sum_{i=1}^{n}(x_i-\bar{x})}\\
b = \bar{y}-a\bar{x}

ここで、


b = \bar{y}-a\bar{x}\\
⇔ \bar{y} = a\bar{x}+b

となるので、xとyの平均値は推定された回帰式を満たすのは自明です。
この性質を用いることで、「全変動 = 回帰変動 + 残差変動」から以下の式が導かれます。導出については統計WEB_27-4. 決定係数と重相関係数を参照してください。


\sum_{i=1}^{n}(y_i-\bar{y})^2=\sum_{i=1}^{n}(\hat{y_i}-\bar{y})^2+\sum_{i=1}^{n}(y_i-\hat{y_i})^2

これを変形したものが、決定係数となります。


\sum_{i=1}^{n}(y_i-\bar{y})^2-\sum_{i=1}^{n}(y_i-\hat{y_i})^2=\sum_{i=1}^{n}(\hat{y_i}-\bar{y})^2\\
両辺を\sum_{i=1}^{n}(y_i-\bar{y})^2で割ると、\\
1-\frac{\sum_{i=1}^{n}(y_i-\hat{y_i})^2}{\sum_{i=1}^{n}(y_i-\bar{y})^2}=\frac{\sum_{i=1}^{n}(\hat{y_i}-\bar{y})^2}{\sum_{i=1}^{n}(y_i-\bar{y})^2}=R^2

この式から、「全変動のうち回帰によりどれだけ変動が減ったか」が「全変動のうちの回帰変動の割合」に一致することが分かります。いずれも、ぴったり回帰できた場合、つまり「y=yの予測値」の場合は決定係数が1になることが分かります。

決定係数(相関係数の二乗)の解釈

決定係数=相関係数の二乗は、y=ax+bで最小二乗法により回帰した場合に成り立つ定理です。それ以外の条件では成り立ちません。詳しくは、高校数学の美しい物語_決定係数の定義と相関係数との関係を参照してください。

切片強制通過のときの決定係数

検量線を作成する際に、原点強制通過とし切片=0、つまり y=axとして検量線を作成することがあります。その場合の決定係数の定義について説明します。

y=axの最小二乗法では誤差εの二乗は以下となり、これを最小化するaを求めます。


ε^2 = \sum_{i=1}^{n}(y_i - ax_i)^2


aを偏微分した方程式からaを求めます。


\frac{∂}{∂a} = 2\sum_{i=1}^{n}(y_i - ax_i)x_i=0\\
⇔\sum_{i=1}^{n}x_iy_i - a\sum_{i=1}^{n}x_i^2=0\\
⇔a = \frac{\sum_{i=1}^{n}x_iy_i}{\sum_{i=1}^{n}x_i^2}

ここで、y=ax+bで回帰したときに成り立つxとyの平均値は推定された回帰式を満たす性質について考えます。


a\bar{x} = \frac{\sum_{i=1}^{n}x_iy_i}{\sum_{i=1}^{n}x_i^2}\bar{x}≠\bar{y}

つまり、y=axで回帰したときはxとyの平均値は推定された回帰式は満たしません。
よって、xとyの平均値は回帰の直線上にはのらず、全変動 = 回帰変動 + 残差変動は成り立ちません。
切片強制通過の場合は以下の平方和分解が成り立ちます。(Tarald O. Kvalseth 1985から引用)これは、y=axで回帰したときの平方和分解でyの平均値=0としたものと一致します。


\sum_{i=1}^{n}y_i= \sum_{i=1}^{n}\hat{y_i}^2+\sum_{i=1}^{n}(y_i-\hat{y_i})^2

そして、決定係数は以下のようになります。(Tarald O. Kvalseth 1985から引用)


R^2 = \frac{\sum_{i=1}^{n}\hat{y_i}^2}{\sum_{i=1}^{n}y_i^2}

一般的な統計ソフトでは、原点強制通過の場合にも1-SSE/SSTで決定係数を計算している場合がありますが、y=ax+bで回帰した場合の決定係数とは比較できないので注意が必要です。

重み付きのときの決定係数

重み付き最小二乗法で回帰したときの決定係数(1-SSE/SST)は以下の通りになります。(John B. Willett 1988より引用)


R^2 = 1-\frac{\sum_{i=1}^{n}w_i(y_i-\hat{y_i})^2}{\sum_{i=1}^{n}w_i(y_i-\bar{y})^2}\\

(ここで、\bar{y} = \frac{\sum_{i=1}^{n}w_iy_i}{\sum_{i=1}^{n}w_i})

上記の通り、重み付きの場合は決定係数の定義式が異なりますので注意が必要です。

参考文献

  1. Tarald O. Kvalseth 1985, 279-285 The American Statistician
  2. Joseph G. Eisenhauer 2003, Volume 25 Teaching Statistics
  3. John B. Willett 1988, Vol.42 No.3 American Statistical Association

さいごに

相関係数、決定係数は調べれば調べるほど奥が深かったです。色んなサイトを参考にさせて頂きました。まだまだ調べきれていないことありますので、適宜更新していければと。
本投稿に関して、間違えや誤字脱字などお気づきの点ありましたら、ご指摘くださいm(_ _)m