JDLA E資格対策 応用数学レポート


JDAL E資格の受験用に、応用数学を勉強した備忘録

第1章

1. 線形代数

1-1.ベクトルとスカラーの違い

スカラー:大きさのみを持つ量
     いわゆる普通の数
     + - × ÷の演算が可能

     例)スカラー量・・・体重、質量、温度、密度

ベクトル:大きさと向きを持つ量
     矢印で図示される

     例)ベクトル量・・・速度、加速度、力、圧力

1-2. 行列

行列とは、数字・記号・式などを縦と横に並べたもののこと

2x2の行列は下記の通り

\begin{pmatrix}
a & b \\
c & d
\end{pmatrix}

1-3. 行列とベクトルの積

行列とベクトルの積は、新たな成分のベクトルを求めることができる

{\left(
\begin{array}{cc}
a_{11} & a_{12} \\
a_{21} & a_{22} \\
\end{array}
\right)
\left(
\begin{array}{c}
b_{1} \\
b_{2} \\
\end{array}
\right)
=
\left(
\begin{array}{c}
a_{11}b_{1}+a_{12}b_{2} \\
a_{21}b_{1}+a_{22}b_{2} \\
\end{array}
\right)
}

1-4. 行列同士の積

行列と行列の積は、新たな成分行列を求めることができる

{\left(
\begin{array}{cc}
a_{11} & a_{12} \\
a_{21} & a_{22} \\
\end{array}
\right)
\left(
\begin{array}{cc}
b_{11} & b_{12} \\
b_{21} & b_{22} \\
\end{array}
\right)
=
\left(
\begin{array}{cc}
a_{11}b_{11}+a_{12}b_{21} & a_{11}b_{12}+a_{12}b_{22} \\
a_{21}b_{11}+a_{22}b_{21} & a_{21}b_{12}+a_{22}b_{22} \\
\end{array}
\right)
}

1-5. 単位行列

任意の正方行列Eに対して
AE=EA=A
となる行列Eを単位行列という。

{E
=
\begin{pmatrix}
1 & 0 & 0 \\
0 & 1 & 0 \\
0 & 0 & 1 \\
\end{pmatrix}
}

1-6. 逆行列

n次正方行列Aに対してXA=AX=E(Eは単位行列)となるような行列Xが存在するとき、
XをAの逆行列といい、

{X=A^{-1}
}

となる

2次正方行列の逆行列計算は下記となる

{A =
\begin{pmatrix}
a & b \\
c & d
\end{pmatrix}
}
{A^{-1} = \frac{1}{det(A)}
\begin{pmatrix}
d & -b \\
-c & a
\end{pmatrix}
}
{det(A) = ad-bc
}

1-7. 行列式

逆行列の有無を導出する
以下のような正方行列があるとき、

{\begin{pmatrix}
a & b \\
c & d \\
\end{pmatrix}
}

行列式は

{\begin{pmatrix}
a & b \\
c & d
\end{pmatrix}
= ad - bc
}

と表され、$ad−bc=0$ のとき逆行列は存在しない

1-8. 固有ベクトル、固有値

固有ベクトルとは線形変換を行っても向きが変わらないベクトル

普通、線形変換をするとベクトルは向きが変わるが、
線形変換しても部分空間から外れないベクトルを固有ベクトルという

固有値とはある行列の固有ベクトルが線形変換後に何倍になるのか示す値
固有値は慣習的にラムダ記号(λ)で表し、ある行列Aと固有ベクトル$\vec{x}$があるとき

{A\vec{x} = λ\vec{x}
}

と表すことができる
このように正方形の行列を上述のような三つの行列の積に変換することを固有値分解という

1-9.固有値分解

ある正方行列AAが固有値λ固有ベクトルvを持つとき

{\Lambda=
\left(
\begin{array}{ccc}
\lambda_{1} & & \\
 & \lambda_{2} & \\
 & & \ddots \\
\end{array}
\right)
}
{V=
\left(
\begin{array}{ccc}
\vec{v}_{1} & \vec{v}_{2} & \cdots \\
\end{array}
\right)
}
{AV=V{\Lambda}
}

と関係付けられる。したがって

{A=V{\Lambda}V^{-1}
}

と変形することができ、これを固有値分解という

固有値分解のステップ

STEP1:$|A-{\lambda}E|=0$ より固有値λを求める

STEP2:$(A-{\lambda}E)\vec{v}=\vec{0}$ に前で求めたλを代入してそれぞれのλの
     固有ベクトル$v$を求める

STEP3:$A = V{\Lambda}V^{-1}$の形で書き出す

1-10.特異値分解

正方行列以外(長方形)の固有値分解のようなもの

{M\vec{v} = σ\vec{u}\\
M^{T}\vec{u} = σ\vec{v}
}

上記のようなと特殊な単位ベクトルがあるならば特異値分解ができる

{A = USV^{T}
}

特異値分解のステップ

STEP0:$AA^{T}$と$A^{T}A$を求めておく

STEP1:$|AA^{T}-{\lambda}E|=0$ より固有値λを求める

STEP2-1:$(A^{T}A-{\lambda}E)\vec{u}=\vec{0}$ に前で求めたλを代入して
     $A^{T}A$の左特異ベクトル$\vec{u}$を求める

STEP2-2:$(A^{T}A-{\lambda}E)\vec{v}=\vec{0}$ に前で求めたλを代入して
     $A^{T}A$の右特異ベクトル$\vec{v}$を求める

STEP3:$A = USV^{T}$の形で書き出す

$U$:左特異ベクトルを並べた行列
$V^{T}$:右特異ベクトルを並べた行列の転置行列

第2章

2. 確率・統計

2-1. 頻度確率(客観確率)

発生する頻度のこと。客観確率ともいう
例)「100本のうち5本だけあたりのクジを引いて当選する確率を調べたところ5%であった」という事実

2-2. ベイズ確率(主観確率)

信念(気持ちの強さ)の度合
例):「あなたは80%の確率で事故に遭います」という診断

2-3. 条件付き確率

ある事象$X = x$という条件の元、事象$Y = y$に含まれる確率。
例)雨が降っているという条件のもと、交通事故にあう確率

例):トランプを1枚引いたとき
   事象A:絵札(11~13)である
   事象B:スペードである

   スペードを引いた時に絵札である確率:

{P(A\mid{B})=\frac{P(A\cap{B})}{P(B)}=3/13
}

2-4. 同時確率

お互いの事象には無関係な2つ以上の事象$X = x,Y = y$が同時に起こる確率

{P(A\mid{B})=\frac{P(A\cap{B})}{P(B)}=\frac{n(A\cap{B})}{n(B)}
}

$P(A\cap{B})$:事象$A$と事象$B$が同時に発生する確率
$P(B)$:事象$B$が発生する確率

2-5. ベイズ則

$P(A\cap{B})=P(A)P(B\mid{A})$なので、条件付き確率の定義式を以下のように変形

{P(A\mid{B})=\frac{P(A\cap{B})}{P(B)}=\frac{P(A)P(B\mid{A})}{P(B)}
}

これをベイズ則という

2-6. 確率変数と確率分布

・確率変数
事象と結びつけられた数値
事象そのものを指すと解釈

・確率分布
事象の発生する確率の分布
離散値であれば表に出せる

2-7. 期待値

その分布における「平均」「ありえそうな値」のこと
期待値→平均の値 「『各確率変数』に『その確率変数のでる確率』をかけた数」の合計

$E(f)=∑nk=1(P(X=xk)f(X=xk)$:離散値における確率変数f(X=x)f(X=x)の期待値
$E(f)=∫(P(X=x)f(X=x)dx$:連続値における確率変数f(X=x)f(X=x)の期待値
$X$:事象$(x1,x2,…,xnx1,x2,…,xn)$
$f(X=x)$:事象$x$の確率変数
$P(X=x)$:事象$x$の発生する確率

2-8. 分散と共分散

分散

データの散らばり具合のこと
データの各々の値が,期待値からどれだけズレているのか平均したもの

{Var(f)=E((f_{(X=x)}-E_{f})^2)=E(f_{(X=x)}^2)-(E_{f})^2
}

共分散

二つのデータ系列の傾向の違い
正の値をとれば似た傾向
負の値をとれば逆の傾向
0をとれば関係性に乏しい

{Conv(f,g)=E((f_{(X=x)}-E_{f})(g_{(Y=y)}-E_{g}))=E(fg)-E(f)E(g)
}

2-9.分散と標準偏差

分散は二乗しているので、元のデータと単位違う。
したがって、二乗することの逆援することの逆演算をすれば元の単位に戻る。

{σ=\sqrt{Var(f)}=\sqrt{E \bigl(f_{(X=x)}\bigr)^2- \bigl(E_{(f)} \bigr)^2}
}

2-10.ベルヌーイ分布

コイントスのイメージ
裏と表の割合が等しくなくても使える

{P(x\mid\mu)=\mu^x(1-\mu)^{1-x}
}

ベルヌーイ分布に従う$X$の期待値は$E[X]=p$、
分散は$V[X]=p(1−p)$で表せる

2.11.マルチヌーイ分布

ベルヌーイ分布の多分類版
サイコロを転がすイメージ
各面の出る割合が等しくなくても使える

2-11. 二項分布

ベルヌーイ分布の多試行版

{P(x|λ,n) = \frac{n!}{x!(x-n)!}λ^x(1-λ)^{n-x}
}

二項分布の期待値、分散は以下となる

{\begin{align}
E(X) &= np \\
V(x) &= np(1-p) \\
\end{align}
}

2-12.ガウス分布(正規分布)

釣鐘型の連続分布

$N(x; \mu, \sigma^{2}) = \sqrt{\dfrac{1}{2\pi\sigma^{2}}}\exp\biggl(-\dfrac{1}{2\sigma^{2}}(x - \mu)^{2}\biggr)$:ガウス分布
 
$x$:事象XXのうちのひとつの確率変数
$μ$:事象XXの確率変数の期待値
$2σ$:事象XXの確率変数の分散

特徴
平均値と最頻値と中央値が一致す
平均値を中心にして左右対称である(直線$x=u$に対して対象)
$x$軸が漸近線である
分散(標準偏差)が大きくなると、曲線の山は低くなり、左右に広がって平らになる
分散(標準偏差)が小さくなると、山は高くなり、よりとんがった形になる

第3章

3.情報理論

3-1.自己情報量

情報量の定義
1:発生する確率が低いこと(珍しいこと)が分かった時のほうが、情報量が多い
2:情報量は足し算で増えていく。

自己情報量
対数の底が2のとき,単位はビット(bit)
対数の底がネイピアのeのとき,単位は(nat)

{I(x) = -log(P(x))
     = log(W(x))
}

例)1枚のコインを1回投げて表が出たという事象の情報量

{I(x) = -log(P(x))= -log(0.5) = 1(bit)   
}

平均情報量(シャノンの情報エントロピー)$H(X)$下記で表せます

{H(X) = \mathbb{E}[I(X)]=- \sum_{x\in \Omega} P(X=x)\log_{2}P(X=x)
\tag{2}
}

情報理論において、エントロピーと呼ばれるのは、この平均情報量を示す

3.2. シャノンエントロピー

微分エントロピーともいうが,微分しているわけではない
自己情報量の期待値→事象xxの情報の珍しさの平均値

{\begin{align}
H(x) &= E(I(x))\\
     &= -E(log(P(x))\\
     &= -\sum (P(x)log(P(X))\\
\end{align}
}

3-3. カルバック・ライブラー ダイバージェンス

同じ事象・確率変数における異なる確率分布P,Qの違いを表す
尤度比(尤もらしさを比較する尺度)を log 変換し(乗算操作を線形結合に直す、凸関数だから最適化との相性良い)、期待値(確率密度の重み付きの積分、ルベーグ積分)をとったもの」として定義される。

D_{KL}(P \mid\mid Q) = E_{x\sim{P}}\begin{bmatrix}\log\dfrac{P(x)}{Q(x)}\end{bmatrix}
\log\dfrac{P(x)}{Q(x)} = \log(P(x)) - \log(Q(x))\\ 
                       = -(-log(P(x))) + (-log(Q(x)))\\ 
                       = -I_{P}(x) + I_{Q}(x)\\ 
                       = I_{Q}(x) -I_{P}(x)

上記より
$DKL(P∣∣Q)=Ex∼P(IQ(x)−IP(x))$
$I(x)$:自己情報量→xxの情報の珍しさ
$IQ(x)$:想定していた珍しさ
$IP(x)$:判明した珍しさ

3-4.交差エントロピー

2つの確率分布がどの程度離れているかを判定するために使用す。ニューラルネットワークなどの機械学習の誤差関数としてよく用いられる。
KLダイバージェンスの一部分を取り出したもの
Qについての自己情報量をPの分布で平均している

{H(P,Q) = H(P) + D_{KL}(P||Q) \\
H(P,Q) = -E_{X\sim P}  log(Q(x)
}