機械学習超入門 確率モデルと最尤推定編
はじめに
このシリーズは、私個人の学習及びその備忘録として記述するものですが、せっかくですので学んだ内容を皆さんとシェアできればと思い投稿させていただいています。
主に機械学習やディープラーニングを勉強する中で出てくる用語の整理等を行います。
今回は機械学習のモデルで登場する確率モデルと最尤推定について、その概要をまとめていきます。
確率モデル
確率モデルは、変数xがパラメータθを持つある確率分布P(x|θ)
から生成されていると仮定したモデルのことを指します。
x ~ P(x|\theta)
例)正規分布
xが連続変数の場合は正規分布となります。
N(x|\mu, \sigma^2) = \frac{1}{\sqrt{2\pi \sigma^2}} exp \begin{bmatrix} - \frac{(x-\mu)^2}{2\sigma^2} \end{bmatrix}
例)ベルヌーイ分布
離散変数、特に恋んトスなどのような0か1をとる場合はベルヌーイ分布と呼ばれます。
B(x|p) = p^x(1-p)^{1-x}
尤度(ゆうど)
ある互いに独立なNこのデータX=(x0, x1, ...)が与えられたとき、以下のように各データの確率関数の値の積をθの関数とすると、これはシータの尤(もっと)もらしさとなり、尤度(ゆうど、Likelihood)と呼びます。
L(\theta) = \prod_{n}P(x_n|\theta)
尤度は確率モデルで最も重要な量であり、尤度を最大にするようなパラメータθを求めることを最尤推定(さいゆうすいてい、Maximum Likelihood Estimation, MLE)といいます。
通常は、計算のしやすさなどから下のような対数尤度の形で扱うそうです。
lnL(\theta) = \sum_nlnP(x_n|\theta)
例)正規分布の期待値パラメータμの最尤推定
対数尤度をμについて偏微分し、値が0になる方程式を解くことで求められます(結果的に、期待値パラメータμの最尤推定はすべてのxの平均値となります)。
lnL(\theta) = - \frac{N}{2}ln2\pi\sigma^2 - \frac{1}{2\sigma^2}\sum_n(x_n-\mu)^2\\
\frac{\delta}{\delta_p}lnL(\theta) = - \frac{1}{\sigma^2}\sum_n(x_n - \mu) = 0 \\
\mu = \frac{1}{N}\sum_nx_n = \bar{x}
例)ベルヌーイ分布のpの最尤推定
同様にベルヌーイ分布についてもpの最尤推定を解くと次のようになります。ここで、x=1の個数をMとすると
\sum_nx_n = M \\
lnL(\theta) = \sum_nx_nlnp + (1 - x_n)ln (1 - p) \\
=Nlnp + (N - M)ln(1 - p) \\
\frac{\delta}{\delta_p}lnL(\theta) = - \frac{M}{p} + \frac{N -M}{1 -p} = 0 \\
p = \frac{M}{N}
となり、pはx=1の回数の割合という結果になります。
おわりに
このシリーズはこのくらいのボリューム感で必要な部分だけをおさえていこうと思います。
次回は確率的勾配降下法についてまとめていこうと思いますので、ぜひそちらもご覧ください。
それでは最後までご閲覧頂き、ありがとうございました。
Author And Source
この問題について(機械学習超入門 確率モデルと最尤推定編), 我々は、より多くの情報をここで見つけました https://qiita.com/qulylean/items/8b39175ea927bda26dc9著者帰属:元の著者の情報は、元のURLに含まれています。著作権は原作者に属する。
Content is automatically searched and collected through network algorithms . If there is a violation . Please contact us . We will adjust (correct author information ,or delete content ) as soon as possible .