Study-AI 応用数学 レポート


第一章 線形代数

基本概念

・スカラー
ベクトルに対して普通の数のことを指す概念

・ベクトル
複数の数のセットで多次元的な位置や移動を表す

\begin{pmatrix}
x \\
y \\
z \\
\end{pmatrix}

・行列
ベクトルが数を1列に並べたものであることに対し、行と列の概念をもつ。
ベクトルのベクトル。

\begin{pmatrix}
a & b & c\\
d & e & f\\
\end{pmatrix}

行列とベクトルの演算

行列とベクトルの積

\begin{pmatrix}
a & b & c\\
d & e & f\\
\end{pmatrix}
\begin{pmatrix}
x \\
y \\
z \\
\end{pmatrix}
=
\begin{pmatrix}
ax + by + cz\\
dx + ey + fz\\
\end{pmatrix}

行列と行列の積

\begin{pmatrix}
a & b \\
c & d \\
\end{pmatrix}
\begin{pmatrix}
x_1 & y_1 \\
x_2 & y_2 \\
\end{pmatrix}
=
\begin{pmatrix}
ax_1 + bx_2 & ay_1 + by_2 \\
cx_1 + dx_2 & cy_1 + dy_2 \\
\end{pmatrix}
行列の成り立ち

連立方程式をシンプルに記述したい。

\left\{
\begin{array}{rrr}
x_1 + 2x_2 & = & 3 \\
2x_1 + 5x_2 & = & 5 \\
\end{array}
\right.

A\vec{x} = \vec{b} \\
A=\begin{pmatrix}
1 & 2 \\
2 & 5 \\
\end{pmatrix} , \;
\vec{x}=\begin{pmatrix}
x_1 \\
x_2 \\
\end{pmatrix} , \;
\vec{b}=\begin{pmatrix}
3 \\
5 \\
\end{pmatrix}

と表すための記述方法。

上記の連立方程式は以下の手順で解ける。
1. 上の式を2倍して下の式から引く。($x_2=-1$)
2. $x_2$を上の式に代入する。($x_1=5$)
※これを行基本変形という

これを行列式で表現すると以下のようになる。
1. 上の式を2倍して下の式から引く。

\begin{pmatrix}
1 & 0 \\
-2 & 1 \\
\end{pmatrix}
\begin{pmatrix}
1 & 2 \\
2 & 5 \\
\end{pmatrix}
\begin{pmatrix}
x_1 \\
x_2 \\
\end{pmatrix}
=
\begin{pmatrix}
1 & 0 \\
-2 & 1 \\
\end{pmatrix}
\begin{pmatrix}
3 \\
5 \\
\end{pmatrix}\\
⇒\begin{pmatrix}
1 & 2 \\
0 & 1 \\
\end{pmatrix}
\begin{pmatrix}
x_1 \\
x_2 \\
\end{pmatrix}
=
\begin{pmatrix}
3 \\
-1 \\
\end{pmatrix}

2. $x_2$を上の式に代入する。(2倍して引く)

\begin{pmatrix}
1 & -2 \\
0 & 1 \\
\end{pmatrix}
\begin{pmatrix}
1 & 2 \\
0 & 1 \\
\end{pmatrix}
\begin{pmatrix}
x_1 \\
x_2 \\
\end{pmatrix}
=
\begin{pmatrix}
1 & -2 \\
0 & 1 \\
\end{pmatrix}
\begin{pmatrix}
3 \\
-1 \\
\end{pmatrix}\\
⇒\begin{pmatrix}
1 & 0 \\
0 & 1 \\
\end{pmatrix}
\begin{pmatrix}
x_1 \\
x_2 \\
\end{pmatrix}
=
\begin{pmatrix}
5 \\
-1 \\
\end{pmatrix}

係数行列が単位行列になった。
※単位行列:対角成分が$1$、その他の成分が$0$の$n$行$n$列の正方行列

つまり、行基本変形に対応する行列部分を計算すると、係数行列の逆行列になる。
※逆行列:行列$A$に対し、$AA^{-1}=A^{-1}A=I$が成り立つ$A^{-1}$($I$は単位行列)

\begin{pmatrix}
1 & -2 \\
0 & 1 \\
\end{pmatrix}
\begin{pmatrix}
1 & 0 \\
-2 & 1 \\
\end{pmatrix}
\begin{pmatrix}
1 & 2 \\
2 & 5 \\
\end{pmatrix}
\begin{pmatrix}
x_1 \\
x_2 \\
\end{pmatrix}\\
⇒\begin{pmatrix}
5 & -2 \\
-2 & 1  \\
\end{pmatrix}
\begin{pmatrix}
1 & 2 \\
2 & 5 \\
\end{pmatrix}
\begin{pmatrix}
x_1 \\
x_2 \\
\end{pmatrix}
逆行列の求め方

掃き出し法という逆行列の求め方がある。
逆行列を求めたい行列$A$の横に
単位行列をくっつけて$(A|I)$
$A$が単位行列になるように行基本変形をすると逆行列が求まる $(I|A^{-1})$

例)

\left(
\begin{array}{rr|rr}
4 & 7 & 1 & 0 \\
1 & 2 & 0 & 1 \\
\end{array}
\right)

下の式を4倍して上の式を引く

\left(
\begin{array}{rr|rr}
4 & 7 & 1 & 0 \\
0 & 1 & -1 & 4 \\
\end{array}
\right)

下の式の7倍を上の式から引く

\left(
\begin{array}{rr|rr}
4 & 0 & 8 & -28 \\
0 & 1 & -1 & 4 \\
\end{array}
\right)

上の式を4で割る

\left(
\begin{array}{rr|rr}
1 & 0 & 2 & -7 \\
0 & 1 & -1 & 4 \\
\end{array}
\right)

したがって逆行列は以下となる。

\begin{pmatrix}
4 & 7 \\
1 & 2 \\
\end{pmatrix}^{-1}
=
\begin{pmatrix}
2 & -7 \\
-1 & 4 \\
\end{pmatrix}
逆行列を持たない行列

解がない、解が一意に定まらないタイプの連立方程式の係数行列は逆行列を持たない。

例)

\left\{
\begin{array}{rrr}
x_1 + 4x_2 & = & 7 \\
x_1 + 4x_2 & = & 10 \\
\end{array}
\right.

⇒並行な2直線のため解なし

\left\{
\begin{array}{rrr}
x_1 + 4x_2 & = & 7 \\
2x_1 + 8x_2 & = & 14 \\
\end{array}
\right.

⇒同一直線上のため解が定まらない

行列式

ある行列が2つの横ベクトルの組み合わせと考えたとき、

\begin{pmatrix}
a & b \\
c & d \\
\end{pmatrix}
=
\begin{pmatrix}
\vec{v_1} \\
\vec{v_2} \\
\end{pmatrix}

2つのベクトルで作られる平行四辺形の面積が0になる場合、
逆行列が存在しない。

この平行四辺形の面積は、ある図形をその行列によって変形するときの面積の倍率と一致する。
これを行列式と呼び、以下のように表す。

\begin{vmatrix}
a & b \\
c & d \\
\end{vmatrix}
=
\begin{vmatrix}
\vec{v_1} \\
\vec{v_2} \\
\end{vmatrix}
=
ad-cb

講義資料では触れられていないが、行列式で求められる面積は「符号付き面積」であり、負の値をとることがある。

また、3×3行列の行列式は以下のように計算することができる。

\begin{vmatrix}
a & b & c \\
d & e & f \\
g & h & i \\
\end{vmatrix}
=
\begin{vmatrix}
a & b & c \\
0 & e & f \\
0 & h & i \\
\end{vmatrix}
+
\begin{vmatrix}
0 & b & c \\
d & e & f \\
0 & h & i \\
\end{vmatrix}
+
\begin{vmatrix}
0 & b & c \\
0 & e & f \\
g & h & i \\
\end{vmatrix} \\
=
a
\begin{vmatrix}
e & f \\
h & i \\
\end{vmatrix}
-d
\begin{vmatrix}
b & c \\
h & i \\
\end{vmatrix}
+g
\begin{vmatrix}
b & c \\
e & f \\
\end{vmatrix}

これも講義資料では触れられていないが、上記の計算は余因子展開と呼ばれる手法で3×3行列の行列式を2×2行列の行列式に展開している。
また、4×4以上の行列式は定義が複雑すぎるためか紹介されていない。

行列式の特徴

$n$個のベクトルからなる行列の行列式は以下の特徴を持つ。

同じ行ベクトルが含まれていると行列式は$0$。

\begin{vmatrix}
\vec{v_1} \\
\vdots \\
\vec{W} \\
\vdots \\
\vec{W} \\
\vdots \\
\vec{v_n} \\
\end{vmatrix}
=
0

1つのベクトルが$\lambda$倍されると行列式は$\lambda$倍される。

\begin{vmatrix}
\vec{v_1} \\
\vdots \\
\lambda\vec{v_i} \\
\vdots \\
\vec{v_n} \\
\end{vmatrix}
=
\lambda
\begin{vmatrix}
\vec{v_1} \\
\vdots \\
\vec{v_i} \\
\vdots \\
\vec{v_n} \\
\end{vmatrix}

ほかの成分が全部同じで$i$番目のベクトルだけが違った場合、行列式の足し合わせになる。

\begin{vmatrix}
\vec{v_1} \\
\vdots \\
\vec{v_i} + \vec{W}\\
\vdots \\
\vec{v_n} \\
\end{vmatrix}
=
\begin{vmatrix}
\vec{v_1} \\
\vdots \\
\vec{v_i} \\
\vdots \\
\vec{v_n} \\
\end{vmatrix}
+
\begin{vmatrix}
\vec{v_1} \\
\vdots \\
\vec{W}\\
\vdots \\
\vec{v_n} \\
\end{vmatrix}

これらの特徴は列に対しても成り立つ。

固有値と固有ベクトル

ある行列$A$に対して、以下のような式が成り立つ特殊なベクトル$\vec{x}$と係数$\lambda$がある。

A\vec{x}=\lambda\vec{x} 

ただし$\vec{x}$は$\vec{0}$でない。
この特殊なベクトル$\vec{x}$と係数$\lambda$を、行列$A$の固有ベクトル、固有値という。

固有ベクトル、固有値は以下のように求める。

\begin{array}{rcl}
A\vec{x} & = & \lambda\vec{x} \\
(A-\lambda I) \vec{x} & = & \vec{0}
\end{array}

$\vec{x} \neq \vec{0} $より

\begin{array}{rcl}
\begin{vmatrix}
A-\lambda I
\end{vmatrix} & = & 0 \\
\begin{vmatrix}
1-\lambda & 4 \\
2 & 3-\lambda \\
\end{vmatrix}
 & = & 0 \\ 
(1-\lambda)(3-\lambda)-4 \cdot 2 & = & 0 \\
\lambda & = & 5 \; \text{or} \; -1
\end{array}

$\lambda = 5$より、

\begin{pmatrix}
1 & 4 \\
2 & 3 \\
\end{pmatrix}
\begin{pmatrix}
x_1 \\
x_2 \\
\end{pmatrix}
=5
\begin{pmatrix}
x_1 \\
x_2 \\
\end{pmatrix}

よって$x_1 = x_2$
$\lambda = -1$より、

\begin{pmatrix}
1 & 4 \\
2 & 3 \\
\end{pmatrix}
\begin{pmatrix}
x_1 \\
x_2 \\
\end{pmatrix}
=-1
\begin{pmatrix}
x_1 \\
x_2 \\
\end{pmatrix}

よって$x_1 = -2x_2$
したがって
$\lambda = 5$ のとき
$\vec{x}=\begin{pmatrix} 1 \\ 1 \end{pmatrix}$ の定数倍
$\lambda = -1$ のとき
$\vec{x}=\begin{pmatrix} 2 \\ -1 \end{pmatrix}$ の定数倍

固有値分解

ある正方行列$A$が固有値$\lambda_1, \lambda_2,\cdots$と固有ベクトル$\vec{v}_1, \vec{v}_2,\cdots$を持つとする。
この固有値を対角線上に並べた行列(それ以外の成分は$0$)

\Lambda =
\begin{pmatrix}
\lambda_1 & & \\
& \lambda_2 & \\
& & \ddots \\
\end{pmatrix} 

と、それに対応する固有ベクトルを並べた行列

V =
\begin{pmatrix}
\\
\vec{v}_1 & \vec{v}_2 & \cdots \\
\\
\end{pmatrix}

は、以下の等式を満たす。

AV = V \Lambda

したがって

A = V \Lambda V^{-1}

と変形できる。
このように正方行列を上記の様に変換することを固有値分解という。この変換によって行列の累乗の計算が容易になる等の利点がある。

特異値分解

正方行列以外に対して固有値分解はできないが、近しいことができる。

\begin{array}{rcl}
M \vec{v} & = & \sigma \vec{u} \\
M^{\mathsf{T}} \vec{u} & = & \sigma \vec{v}
\end{array}

上記のような単位ベクトル$\vec{v}, \vec{u}$と$\sigma$から固有値分解と同じように行列を作り、以下のように分解することを特異値分解という。
画像の圧縮などに利用される。

M = USV^{-1}

このとき、$U$、$V$は直行行列となる。
※直行行列:$A^{\mathsf{T}} =A^{-1}$が成り立つ行列。

特異値の求め方
\begin{array}{rcl}
MV & = & US \\
M & = & USV^{-1}
\end{array}

また

\begin{array}{rcl}
M^{\mathsf{T}}U & = & VS^{\mathsf{T}} \\
M^{\mathsf{T}} & = & VS^{\mathsf{T}}U^{-1}
\end{array}

より

\begin{array}{rl}
MM^{\mathsf{T}}
& = & USV^{-1}VS^{\mathsf{T}}U^{-1} \\
& = & USS^{\mathsf{T}}U^{-1}
\end{array}

つまり$MM^{\mathsf{T}}$を固有値分解すれば、その左特異ベクトル(単位ベクトル)と特異値の2乗が求められる。

第一章 演習問題

次の行列

A = \begin{pmatrix}
2 & 1 \\
4 & 1
\end{pmatrix} , \;
B = \begin{pmatrix}
1 & 3 \\
3 & 1
\end{pmatrix}

に関して、以下の計算をせよ。

問1 $B^{-1}$

\left(
\begin{array}{rr|rr}
1 & 3 & 1 & 0 \\
3 & 1 & 0 & 1
\end{array}
\right) \\

\left(
\begin{array}{rr|rr}
8 & 0 & -1 & 3 \\
3 & 1 & 0 & 1
\end{array}
\right) \\

\left(
\begin{array}{rr|rr}
1 & 0 & -1/8 & 3/8 \\
0 & 1 & 3/8 & -1/8
\end{array}
\right) \\

B^{-1} =
\begin{pmatrix}
-1/8 & 3/8 \\
3/8 & -1/8
\end{pmatrix}

問2 $BAB^{-1}$

\begin{array}{rcl}
BAB^{-1} & = &
\begin{pmatrix}
1 & 3 \\
3 & 1
\end{pmatrix}
\begin{pmatrix}
2 & 1 \\
4 & 1
\end{pmatrix}
\begin{pmatrix}
-1/8 & 3/8 \\
3/8 & -1/8
\end{pmatrix} \\

& = &
\frac{1}{8}
\begin{pmatrix}
14 & 4 \\
10 & 4
\end{pmatrix}
\begin{pmatrix}
-1 & 3 \\
3 & -1
\end{pmatrix} \\

& = &
\frac{1}{8}
\begin{pmatrix}
-2 & 38 \\
2 & 26
\end{pmatrix} \\

& = &
\begin{pmatrix}
-1/4 & 19/4 \\
1/4 & 13/4
\end{pmatrix}
\end{array}

第二章 確率・統計

確率

・頻度確率(客観確率)
発生する頻度
(例)10%あたるくじ引き

・ベイズ確率(主観確率)
信頼の度合い
(例)80%当たる占い

条件付き確率

ある事象$X=x$が与えられた下で、$Y=y$となる確率
(例)雨が降っている条件下で交通事故に遭う確率

P(Y=y|X=x)=\frac{P(Y=y,X=x)}{P(X=x)}
独立な事象の同時確率

お互いの発生には因果関係のない事象$X=x$と事象$Y=y$が同時に発生する確率

P(X=x,Y=y)=P(X=x)P(Y=y)=P(Y=y,X=x)
ベイズ測

一般的に事象$X=x$と事象$Y=y$に対して

P(X=x|Y=y)P(Y=y)=P(Y=y|X=x)P(X=x)

(例)
ある街の子どもたちは毎日$1/4$の確率で飴玉をもらうことができ,飴玉をもらうと$1/2$の確率で笑顔になるという。その街の,笑顔な子どもが飴玉をもらっている確率を求めよ。(ただし,この街の子どもたちが笑顔でいる確率は$1/3$である。)

飴玉をもらう確率
$P(\text{飴玉})=1/4$

飴玉をもらって笑顔になる確率
$P(\text{笑顔}|\text{飴玉})=1/2$

この街の子どもたちが笑顔でいる確率
$P(\text{笑顔})=1/3$

この街の笑顔でいる子どもが飴玉をもらっている確率
$P(\text{飴玉}|\text{笑顔})$

$P(\text{飴玉}|\text{笑顔})P(\text{笑顔})=P(\text{笑顔}|\text{飴玉})P(\text{飴玉})$であるから
$P(\text{飴玉}|\text{笑顔})\times1/3=1/2\times1/4$
したがって
$P(\text{飴玉}|\text{笑顔})=3/8$

確率変数と確率分布

・確率変数
事象と結びつけられた数値
事象そのものを指すと解釈する場合も多い

・確率分布
事象の発生する確率の分布
離散値であれば表に表せる

(例)
コインを4枚投げて表裏の数を数える試行を1200回
確率変数:表の数

事象 4枚が表 3枚が表 2枚が表 1枚が表 0枚が表
確率変数 4 3 2 1 0
回数 75 300 450 300 75
確率 1/16 4/16 6/16 4/16 1/16
期待値

その分布における確率変数の平均

事象$X=x_1$のとき、確率変数を$f(x_1)$、確率を$P(x_1)$とするとき、期待値$E(f)$は

離散値の場合

E(f)=
\sum_{k=1}^n P(X=x_k)f(X=x_k)

連続値の場合

E(f)=
\int P(X=x)f(X=x) dx

前述のコイン4枚の例では、表が出る期待値は

E(f)=
\sum_{k=1}^n P(X=x_k)f(X=x_k)\\
=P(4\text{枚})\times1/16
+P(3\text{枚})\times4/16
+P(2\text{枚})\times6/16
+P(1\text{枚})\times4/16
+P(0\text{枚})\times1/16 \\
=(4\times1+3\times4+2\times6+1\times4+0\times1)/16 \\
=32/16 \\
=2
分散と共分散

・分散
データの散らばり具合
データの各々の値が期待値からどれだけずれているか平均したもの

\begin{array}{rl}
Var(f)
& = & E\left((f_{(X=x)}-E_{(f)})^2\right) \\
& = & E\left(f_{(X=x)}^2\right)-\left(E_{(f)}\right)^2
\end{array}

・共分散
2つのデータ系列の傾向の違い
正の値を取れば似た傾向、負の値を取れば逆の傾向、ゼロを取れば関係性に乏しい

\begin{array}{rl}
Cov(f,g)
& = & E\left(
(f_{(X=x)}-E_{(f)})(g_{(Y=y)}-E_{(g)})
\right) \\
& = & E(fg)-E(f)E(g)
\end{array}
分散と標準偏差

・標準偏差
分散は2乗していて元データと単位が異なるため
分散の平方根をとる

\begin{array}{rl}
\sigma
 & = & \sqrt{Var(f)} \\
 & = & \sqrt{E\left((f_{(X=x)}-E_{(f)})^2\right)}
\end{array}
様々な確率分布

・ベルヌーイ分布
コイントスのイメージ
表と裏で出る確率が等しくなくても扱える
(表の確率$\mu$、裏の確率$1-\mu$)

P(x|\mu)=\mu^x(1-\mu)^{1-x} \;\;\; (x=0,1)

・マルチヌーイ(カテゴリカル)分布
サイコロを転がすのイメージ
各面の出る確率が等しくなくても扱える
(事象$k$の確率$\mu_k$、$\vec{x}$は要素の1つが$1$で他は$0$のベクトル)

P(\vec{x}|\vec{\mu})=\prod_{k=1}^K\mu_k^{x_k}

・二項分布
ベルヌーイ分布の多試行版
(表の確率$\lambda$、$n$回試行して$x$回表の確率)

P(x|\lambda,n)
=\frac{n!}{x!(n-x)!}\lambda^x(1-\lambda)^{n-x}

左側が表裏の出る組み合わせの場合の数、右側が1パターンについての$x$回表が出る確率

・ガウス分布(正規分布)
釣鐘型の連続分布
(確率変数$x$、平均$\mu$、分散$\sigma^2$)

\mathcal{N}(x;\mu,\sigma^2)
=\sqrt{\frac{1}{2\pi\sigma^2}}
\exp{\left(-\frac{1}{2\sigma^2}(x-\mu)^2\right)} 

第三章 情報理論

自己情報量

選択情報量、自己エントロピーともいう。
対数の底が$2$のとき、単位はbit。
対数の底が$e$(ネイピア数)のとき、単位はnat。

I(x)=-\log\bigl(P(x)\bigr)=\log\bigl(W(x)\bigr)

底を$2$とするとき、$2^{-n}$の確率で起こる事象の情報量は$-\log2^{-n}=n$である。

ジョーカーを除いた$52$枚のトランプから無作為に$1$枚取り出すという試行において、「取り出したカードはスペードの2」という事象の情報量は$-\log52^{-1}=\log52$である。
また、「スペードである」という事象の情報量は$\log4$で、「2である」という事象の情報量は$\log13$となる。
これらの情報量の和は$\log4+\log13 = \log(4 \times 13) = \log52$となり、「取り出したカードはスペードの2」という事象の情報量と等しい。

シャノンエントロピー

自己情報量の期待値。
平均情報量、単にエントロピーともいう。

\begin{array}{rl}
H(x) & = E\bigl(I(x)\bigr) \\
 & = -E\Bigl(\log\bigl(P(x)\bigr)\Bigr) \\
 & =  -\Sigma \Bigl(P(x)\log\bigl(P(x)\bigr)\Bigr)
\end{array}

サイコロを投げた場合のシャノンエントロピーを考える。
それぞれの目が出る確率は$P(x)=1/6$で、情報量は$I(x)=\log6$である。

H(x)=E\bigl(I(x)\bigr)
= 6 \times \frac{1}{6} \log 6 
= \log 6
カルバック・ライブラー ダイバージェンス

同じ事象・確率変数における異なる確率分布$P$、$Q$の違いを表す

\begin{array}{rl}
D_{\mathrm{KL}}(P||Q)
 & = \mathbb{E}_{X~P}\left[\log\frac{P(x)}{Q(x)}\right]  \\ 
 & = \mathbb{E}_{X~P}\bigl[\log P(x)-\log Q(x)\bigr]  \\
 & = \sum_{x}P(x)\bigl(\log P(x)-\log Q(x)\bigr) \\
 & = \sum_{x}P(x)\Bigl(I\bigl(Q(x)\bigr)-I\bigl(P(x)\bigr)\Bigr) \\
& = \sum _{x}P(x)\log {\frac {P(x)}{Q(x)}}
\end{array}

確率変数に$X$対し、$X=x$である確率$\Pr[X=x]$が$Q(x)$であったとする。また、$X$に関する情報$I$を知ったとき、条件付き確率$\Pr[X=x|I]$が$P(x)$になったとする。
このとき、情報$I$を知る前の$X$の自己情報量は$-\log Q(x)$であるが、$I$を知る事でそれは$-\log P(x)$に減る。
したがって、$I$によって得られる自己情報量は

\bigl(-\log Q(x)\bigr)-\bigl(-\log P(x)\bigr)
=\log {\frac {P(x)}{Q(x)}}

となる。この値の$P(x)$による期待値をとると、

\sum _{x}P(x)\log {\frac {P(x)}{Q(x)}}

となり、カルバック・ライブラー ダイバージェンスとなる。

交差エントロピー

カルバック・ライブラー ダイバージェンスの一部分を取り出したもの。
$Q$についての自己情報量を$P$の分布で平均している。

\begin{array}{rl}
H(P,Q)
 & = H(P) + D_{\mathrm{KL}}(P||Q) \\ 
 & = -\mathbb{E}_{X~P}\log Q(x) \\
 & = -\sum_{x}P(x)\log Q(x)
\end{array}