データ解析のための統計モデリング入門を一周して 前編


はじめに

こんにちは。加藤です。
私の師匠の某M社のデータサイエンティストにデータ分析を勉強したいのだがおすすめの本はありますかー(PRMLはいやだPRMLはいやだ)と聞いたところ、
ミドリボ〜ン!!

が良いよと言われたので、購入&お勉強をし始めました。

全体の感想として具体例に基づく解説は非常にわかりやすく、統計初心者の私の頭にも入ってきました。
全部で11章ほどあったのですが、週一(3~5hほど)でじっくりやっていき、2ヶ月ほどで読み終えることができました。

各章のまとめ

第1章

データを理解するために統計モデルを作る。

統計の前提知識についての紹介されていました。簡単な内容なので省略します。

第2章

確率分布と統計モデルの最尤推定

最尤推定とは、あるデータセットを当てはめた時の、尤度が最も高くなるように統計モデルのパラーメータを決定するやり方です。
LM(Liner Model)の特徴は、説明変数と応答変数があり、Yは平均μiで標準偏差σの正規分布に従い、あるデータ点iにおいて平均値がμi=β1+β2xiです。

第3章

一般化線形モデル

第2章の統計モデルでは、どの個体の種子数yiも、平均λのポアソン分布に従うと仮定していました。
しかし、そんな単純なモデルで当てはまりを表現できるデータセットはかなり少ないでしょう。
この章では、個体ごとに異なる説明変数によって応答変数が変化するモデルが登場し、そのモデルをデータセットに当てはめることをポアソン回帰といいます。これと似た(何において似ている?)モデルの総称をGLMと言います。
個体ごとのλの値を表すための式を考えます。

λ_i=e^{(β1+β2x_i)}...①

β1は切片、β2は傾きと呼びます。
①を変形させると、
logλi=β1+β2xi...①'
①'の右辺を線形予測子、左辺をリンク関数と言います。
今回は、対数であるので対数リンク関数と言います。
このモデルの対数尤度の式は

logL(β1,β2)=\frac{\sum_{i}^{} logλ_i{^{y_i}}e^{-λ_i}}{y_i!}

となり、当てはまりの良さが一番よくなるのは、対数尤度logL(β1,β2)が最大になっているところ、つまりパラメータの値が最尤推定値{β1', β2'}になっているときの対数尤度です。

GLMの特徴は、データに合わせて確率分布とリンク関数を選べることです。
今回のデータは前章で使ったカウントデータであるので、正規分布ではなくポアソン分布を用いて、リンク関数はλi=β1+β2xiからダミー変数を入れた対数リンク関数 logλi=β1+β2xi+β3diとなり、モデルの複雑度が増します。
この章ではLM(Liner Model)→GLM(Generalized Liner Model)の違いを元に、LMの上位互換のGLMの長所を紹介してありました。

第4章

GLMのモデル選択

モデル選定とは、データに対しての当てはまりが良いモデルではなくて、良い予測をするモデルを探すことらしいです。つまり、最大対数尤度が高いだけだと、当てはまりの良さしか証明できないので、モデルの良さとは言えないということです。
そこでAIC(Akaike's information criterion)と言うモデル選定のための規準を導入します。
その前に、逸脱度Dと言う統計モデルのあてはまりの悪さ、概念を紹介します。

D=-2logL^*

L*は最大対数尤度です。
AICの式は、最尤推定したパラメータの個数がkである時は以下のようになります。

AIC=-2(LogL^*-k)=D+2k

kが項に入っているのは、パラメータを増やしモデルを複雑化すればするほど、最大対数尤度のLogL*は改善されるからです。

第5章

GLMの尤度比検定と検定の非対称性

検定(統計学的検定)とは。
どのような統計モデルでも使える尤度比検定を紹介。
尤度比検定の検定統計量は二つの統計モデルの逸脱度差である。
有意水準の大きさは任意。よく0.05が使われる。

むやみやたらに統計学的な検定を使うべきではない。と言うのがこの章のメッセージ。
補足的な内容の章であったので簡単にまとめました。

第6章

GLMの応用範囲を広げる

この章では、ロジスティック回帰の統計モデルを扱う。確率分布は二項分布を使う。ポアソン分布と異なり、二項分布のカウントデータには上限があります。N人にポケモンを買うことを勧めたらy人が買って、N-y人が買わなかったといった構造のデータを説明することができます。
二項分布の確率分布は、以下の式で表されます。qはN個のうちy個が生起する確率です。

p(y | N,q) = 
\left(
\begin{matrix}
N\\
y 
\end{matrix}
\right)
q^y(1-q)^{N-y}

リンク関数はロジットリンク関数を指定します。
ロジスティック関数の関数形は以下です。

q_i=logistic(z_i)= \frac{1}{1+e^{(-z_i)}} \\
z_i=β_1+β_2x_i+...

ロジスティック関数を変形すると、

log\frac{q_i}{1-q_i} = z_i

となり、この左辺のことをロジット関数と言います。
ロジット関数は、ロジスティック関数の逆関数であり、ロジスティック関数の逆関数がロジット関数です。
交互作用項、割算値、オフセット項についても書いてありました。(後で追記します)

第7章

一般化線形混合モデル

7章は、GLMMについての説明がされます。
6章ではロジスティック回帰を用いた予測が行われたが
GLMMはGLMでは扱えなかった個体差をモデルで表すことが可能です。
GLMMでは、観測されていないが個体に由来する原因不明の差異を表します。

個体iの個体差を表す連続値のパラメータriをロジット関数に追加します。

logit(q_i)=β_1+β_2x_i+r_i \\
-\infty < r_i <\infty

確率密度関数のp(ri|s)は以下のようになります。

p(r_i|s)=\frac{1}{\sqrt{2 \pi s^2}}exp(-\frac{r^2_i}{2s^2})

標準偏差sは集団内のriのばらつきをあらわし、sが大きければ個体差が大きく、過分散が酷くなりそうです。

riは個体個あるのでフルモデルを防ぐためにriは最尤推定したくないです。
なので、尤度Liの式の中でriを積分します。

L_i = \int_{-\infty}^{\infty}p(y_i|β_1,β_2,r_i)p(r_i|s)dr_i

二項分布と正規分布の2種類の分布を混ぜることで、平均よりも分散の大きい過分散な確率分布を作り出せます。

最後に

8章から11章は後編でまとめます。
読んでいただきありがとうございました!!