機械学習超入門 確率モデルと最尤推定編


はじめに

 このシリーズは、私個人の学習及びその備忘録として記述するものですが、せっかくですので学んだ内容を皆さんとシェアできればと思い投稿させていただいています。
 主に機械学習やディープラーニングを勉強する中で出てくる用語の整理等を行います。
 今回は機械学習のモデルで登場する確率モデルと最尤推定について、その概要をまとめていきます。

確率モデル

 確率モデルは、変数xがパラメータθを持つある確率分布P(x|θ)から生成されていると仮定したモデルのことを指します。

確率モデル
x ~ P(x|\theta)
例)正規分布

 xが連続変数の場合は正規分布となります。

正規分布
N(x|\mu, \sigma^2) = \frac{1}{\sqrt{2\pi \sigma^2}} exp \begin{bmatrix} - \frac{(x-\mu)^2}{2\sigma^2} \end{bmatrix}
例)ベルヌーイ分布

 離散変数、特に恋んトスなどのような0か1をとる場合はベルヌーイ分布と呼ばれます。

ベルヌーイ分布
B(x|p) = p^x(1-p)^{1-x}

尤度(ゆうど)

 ある互いに独立なNこのデータX=(x0, x1, ...)が与えられたとき、以下のように各データの確率関数の値の積をθの関数とすると、これはシータの尤(もっと)もらしさとなり、尤度(ゆうど、Likelihood)と呼びます。

尤度
L(\theta) = \prod_{n}P(x_n|\theta)

 尤度は確率モデルで最も重要な量であり、尤度を最大にするようなパラメータθを求めることを最尤推定(さいゆうすいてい、Maximum Likelihood Estimation, MLE)といいます。
 通常は、計算のしやすさなどから下のような対数尤度の形で扱うそうです。

対数尤度
lnL(\theta) = \sum_nlnP(x_n|\theta)
例)正規分布の期待値パラメータμの最尤推定

 対数尤度をμについて偏微分し、値が0になる方程式を解くことで求められます(結果的に、期待値パラメータμの最尤推定はすべてのxの平均値となります)。

正規分布の期待値パラメータμの最尤推定
lnL(\theta) = - \frac{N}{2}ln2\pi\sigma^2 - \frac{1}{2\sigma^2}\sum_n(x_n-\mu)^2\\
\frac{\delta}{\delta_p}lnL(\theta) = - \frac{1}{\sigma^2}\sum_n(x_n - \mu) = 0 \\
\mu = \frac{1}{N}\sum_nx_n = \bar{x} 
例)ベルヌーイ分布のpの最尤推定

 同様にベルヌーイ分布についてもpの最尤推定を解くと次のようになります。ここで、x=1の個数をMとすると

ベルヌーイ分布の最尤推定
\sum_nx_n = M \\
lnL(\theta) = \sum_nx_nlnp + (1 - x_n)ln (1 - p) \\
=Nlnp + (N - M)ln(1 - p) \\
\frac{\delta}{\delta_p}lnL(\theta) = - \frac{M}{p} + \frac{N -M}{1 -p} = 0 \\
p = \frac{M}{N}

となり、pはx=1の回数の割合という結果になります。

おわりに

 このシリーズはこのくらいのボリューム感で必要な部分だけをおさえていこうと思います。
 次回は確率的勾配降下法についてまとめていこうと思いますので、ぜひそちらもご覧ください。
 それでは最後までご閲覧頂き、ありがとうございました。