【E資格】Part1 応用数学


E資格って何?

日本ディープラーニング協会が実施する試験。
ディープラーニングの理論を理解し、適切な手法を選択して実装する能力があるかが問われる。

受講の動機

  • 対外的にAIエンジニアとして名乗ることが出来る
  • 機械学習の経験はあるが深層学習の経験がないため、概要を理解する

出題範囲

下記3つが出題範囲であり、下に行くにつれて出題の割合が増える(らしい)。

  • 応用数学
  • 機械学習
  • 深層学習

本記事では応用数学について記述する。

応用数学

以下の3つの構成で記述する。
1. 線形代数
2. 確率・統計
3. 情報理論

第1章 線形代数

固有値・固有ベクトル

ある行列$A$に対して以下のような式が成り立つような特殊なベクトル$\vec{x}$と、右辺の係数$\lambda$がある。
$$ A\vec{x} = \lambda \vec{x}$$
この特殊なベクトル$\vec{x}$とその係数$\lambda$を、行列$A$に対する、固有ベクトル、固有値という。

固有値分解

ある実数を正方形にならべて作られた行列$A$が固有値$\lambda_1,\lambda_2,$・・・と固有ベクトル$\vec{v}_1,\vec{v}_2$・・・を持ったとする。この固有値を対角線上に並べた行列(それ以外の成分は0)

\Lambda =
\left(
\begin{matrix}
\lambda_1 &  &  \\
 & \lambda_2 &  \\
 &        &  \ddots
\end{matrix}
\right)

と、それに対応する固有ベクトルを並べた行列

V =
\left(
\begin{matrix}
 &  &  \\
\vec{v}_1 & \vec{v}_2 &  \cdots\\
 &        &  
\end{matrix}
\right)

を用意したとき、それらは
$$AV = V\Lambda$$
と関係付けられる。したがって
$$A = V\Lambda V^{-1}$$
と変形できる。このように正方行列を上記の様な3つの行列の積に変換することを固有値分解という。

固有値分解を行うと何が良いか

行列の累乗の計算が容易になる。

固有値分解の具体例


\left(
\begin{matrix}
1 & 4 \\
2 & 3 \\  
\end{matrix}
\right)

=

\left(
\begin{matrix}
1 & 1 \\
1 & - \frac{1}{2} \\  
\end{matrix}
\right)

\left(
\begin{matrix}
5 & 0 \\
0 & -1 \\  
\end{matrix}
\right)

\left(
\begin{matrix}
\frac{1}{3} & \frac{2}{3} \\
\frac{2}{3} & -\frac{2}{3} \\  
\end{matrix}
\right)


特異値分解

固有値分解は正方行列に限られるが、正方行列以外$(m\times n)$に適用したのが特異値分解である。
正方行列ではない$(m\times n)$行列$M$において、以下の形で分解することを特異値分解という。
$$M =USV^{-1}$$
$U$:各列が $MM^{T}$ の固有ベクトルである行列
$S$:対角成分が $MM^{T}$ の固有値の平方根である行列
$V$:各列が $M^{T}M$ の固有ベクトルである行列

特異値の求め方

1.正方行列ではない$(m\times n)$行列$M$と、その転置行列$M^{T}$の積を求める。
2.正方行列$MM^{T}$を固有値分解する。ここで$U$および$S$が求まる。
3.正方行列$M^{T}M$を固有値分解する。ここで$V^{-1}$が求まる。

第2章 確率・統計

本記事では以下について記載する。
・条件付き確率
・ベイズ則
・ベルヌーイ分布
・マルチヌーイ分布
・二項分布
・ガウス分布

条件付き確率

ある事象$X=x$が与えられた下で、$Y=y$となる確率。
例:雨が降っている条件($X$)下で、交通事故に遭う確率($Y$)
$$P(Y=y \mid X=x) =\frac{P(Y=y,X=x)}{P(X=x)}$$

ベイズの定理

上記条件付き確率の右辺の分子を式変形し、以下の式を得る。
$$P(Y=y \mid X=x) =\frac{P(X=x\mid Y=y)P(Y=y)}{P(X=x)}$$
事象の確率という考え方を採用する特徴があり、例えば現在では迷惑メールのふるい分けにも利用されている。

ベルヌーイ分布

確率変数が0と1で表される分布である。
イメージとしてはコイントスがあげられる。

項目 数式
確率質量関数 $P(x\mid\mu)=\mu^{x}(1-\mu)^{1-x}$
期待値 $E(X)=\mu$
分散 $V(X)=\mu(1-\mu)$

マルチヌーイ分布

ベルヌーイ分布の多次元版。一般的にカテゴリカル分布と呼ぶ。
サイコロを転がすイメージ。
$$P(x\mid\mu)=\prod_{k=1}^{n}\mu_k^{x_{k}} $$

二項分布

ベルヌーイ分布の多試行版。

項目 数式
確率質量関数 $P(x\mid\lambda,n)=\frac{n!}{x!(n-x)!}\lambda^{x}(1-\lambda)^{n-x}$
期待値 $E(X)=n\lambda$
分散 $V(X)=n\lambda(1-\lambda)$

ガウス分布

釣鐘型の連続分布。正規分布と呼ばれる。

項目 数式
確率密度関数 $P(x;\mu,\sigma^{2})=\frac{1}{\sqrt{2\pi\sigma^{2}}}e^{-\frac{(x-\mu)^{2}}{2\sigma^{2}}}$
期待値 $E(X)=\mu$
分散 $V(X)=\sigma^{2}$

第3章 情報理論

本記事では以下について記載する。
・自己情報量
・シャノンエントロピー

自己情報量

確率 $p(>0)$ で起こる事象を観測したときに得られる(自己)情報量を以下の様に定義する。$$I(x) = −\log(P(x))$$
対数の底が2の単位はbitと呼び、対数の底がeの単位をnatと呼ぶ。

シャノンエントロピー

自己情報量の期待値。
$$H(x) = −E(\log(P(x)))$$

計算の具体例

例1. 2枚のコインを1回投げすべて表が出た事象の情報量は何bitか
$$I(x) = −\log(P(x))=−\log\left(\frac{1}{2}\times\frac{1}{2}\right)=2$$
例2. 10枚のコインを1回投げすべて表が出た事象の情報量は何bitか
$$I(x) = −\log(P(x))=−\log\left(\frac{1}{2}\right)^{10}=10$$

上記の例でわかるように、事象が発生する確率が低いほうが情報量が大きい。


ラビットチャレンジ参照:http://ai999.careers/rabbit/