応用数学 レポート


1. 線形代数

スカラー、ベクトル、行列

  • スカラー
    普通の数値(1,2,3…)
  • ベクトル
    大きさと向きを表す概念
  • 行列
    スカラーを表形式、もしくはベクトルを並べたもの。ベクトルの変換に使用。

行列の計算

計算:行と列の各要素の積を合計

\begin{pmatrix}
a_{11} & a_{12} & \cdots & a_{1n} \\
a_{21} & a_{22} & \cdots & a_{2n} \\
\vdots & \vdots & \ddots & \vdots \\
a_{m1} & a_{m2} & \cdots & a_{mn}
\end{pmatrix}
\times
\begin{pmatrix}
b_{11} & b_{12} & \cdots & b_{1n} \\
b_{21} & b_{22} & \cdots & b_{2n} \\
\vdots &\vdots  & \ddots & \vdots \\
b_{n1} & b_{n2} & \cdots & b_{nm}
\end{pmatrix}
=
\begin{pmatrix}
a_{11}b_{11}+a_{12}b_{21}…+a_{1n}b_{n1} & a_{11}b_{12}+a_{12}b_{22}…+a_{1n}b_{n2} & \cdots & a_{11}b_{1n}+a_{12}b_{2n}…+a_{1n}b_{nm} \\
a_{21}b_{11}+a_{22}b_{21}…+a_{2n}b_{n1} & a_{21}b_{12}+a_{22}b_{22}…+a_{2n}b_{n2} & \cdots & a_{21}b_{1n}+a_{22}b_{2n}…+a_{2n}b_{nm} \\
\vdots & \vdots & \ddots & \vdots \\
a_{m1}b_{11}+a_{m2}b_{21}…+a_{mn}b_{n1} & a_{m1}b_{12}+a_{m2}b_{22}…+a_{mn}b_{n2} & \cdots & a_{m1}b_{1n}+a_{m2}b_{2n}…+a_{mn}b_{nm} \\
\end{pmatrix}

連立方程式と行列

連立方程式は行列とベクトルの積として表現できる。

3x+7y=2 \\
2x+3y=9 \\

これを行列で表現すると、

\begin{pmatrix}
3 & -7 \\
2 & 3 \\
\end{pmatrix}
\begin{pmatrix}
x \\
y \\
\end{pmatrix}
=
\begin{pmatrix}
2 \\
9 \\
\end{pmatrix}

この連立方程式を通常の解き方と行列での解き方を比較すると以下の通り。

上記の流れのを行列の計算でまとめると以下の通り。

単位行列と逆行列

  • 単位行列
    対角成分がすべて1。かけてもかけられても変化しない。
I=
\begin{pmatrix}
1 & 0 & \cdots & 0 \\
0 & 1 & \cdots & 0 \\
\vdots & \vdots & \ddots & \vdots \\
0 & 0 & \cdots & 1
\end{pmatrix}
  • 逆行列
    逆数のような働きでかけると単位行列になる行列。逆行列が存在しない場合もある。
AA^{-1}=A^{-1}A=I

逆行列算出

連立方程式を行列計算として算出する流れで求められる。
これを掃き出し法という。

逆行列が存在しない場合

\begin{pmatrix}
a & b \\
c & d \\
\end{pmatrix}
\mbox{という行列があった場合、} \\
a:b \neq c:d\mbox{の場合は逆行列あり} \\
a:b=c:d (ad-bc=0) \mbox{の場合は逆行列あり}

行列式

\begin{vmatrix}
a & b \\
c & d \\
\end{vmatrix}
=ad-bc

と表し、ただのスカラー値。

3×3の行列式の展開は以下の通り。

\begin{vmatrix}
a & b & c \\
d & e & f \\
g & h & i \\
\end{vmatrix}
=a
\begin{vmatrix}
e & f \\
h & i \\
\end{vmatrix}
-d
\begin{vmatrix}
b & c \\
h & i \\
\end{vmatrix}
+g
\begin{vmatrix}
b & c \\
e & f \\
\end{vmatrix}



n個のベクトルからできている行列式の特徴
・同じ行ベクトルが含まれていると行列式はゼロ
・1つのベクトルがλ倍されると行列式はλ倍される
・他の成分が全部同じでi番目のベクトルだけ違った場合行列式の足し合わせになる
・行を入れ替えると符号が変わる

固有値、固有ベクトルと固有値分解

ある行列Aに対して、以下のような式が成り立つ特殊なベクトルxと、スカラーλがある場合、
それぞれを行列Aに対する固有ベクトル、固有値という。

A\vec{v}=λ\vec{v} \Longrightarrow (A-λI)\vec{v}=0(λはスカラーのため単位行列をかける) \\
\vec{v}\neq0 より |A-λI|=0
A\vec{v}=λ\vec{v}の具体例 \\
\begin{pmatrix}
2 & 5 \\
3 & 4 \\
\end{pmatrix}
\begin{pmatrix}
1 \\
1 \\
\end{pmatrix}
=7
\begin{pmatrix}
1 \\
1 \\
\end{pmatrix}

固有値の算出

A-λI=
\begin{pmatrix}
2 & 5 \\
3 & 4 \\
\end{pmatrix}
-λ
\begin{pmatrix}
1 & 0 \\
0 & 1 \\
\end{pmatrix} \\
|A-λI|=
\begin{vmatrix}
2-λ & 5 \\
3 & 4-λ \\
\end{vmatrix} \\
(2-λ)(4-λ)-3\times5=0 \\
λ=-1,7

固有ベクトルの算出

A\vec{v}=λ\vec{v}に代入 \\
\begin{pmatrix}
2 & 5 \\
3 & 4 \\
\end{pmatrix}
\begin{pmatrix}
v_1 \\
v_2 \\
\end{pmatrix}
=-1
\begin{pmatrix}
v_1 \\
v_2 \\
\end{pmatrix}
\quad-1は上で算出した固有値の一つ \\
2v_1+5v_2=-v_1 \\
3v_1+4v_2=-v_2 \\
v_1=-\frac{5}{3}v_2\Longrightarrow v_1=5の時v_2=-3の関係性 \\
つまり \\
固有値λ=-1の時、固有ベクトルはv_1=
\begin{pmatrix}
5 \\
-3 \\
\end{pmatrix}
の定数倍 \\
固有値λ=7の時、固有ベクトルはv_2=
\begin{pmatrix}
1 \\
1 \\
\end{pmatrix}
の定数倍 \\
算出した固有値、固有ベクトルをA\vec{v}=λ\vec{v} \Longrightarrow AV=VΛにまとめると \\
\begin{pmatrix}
2 & 5 \\
3 & 4 \\
\end{pmatrix}
\begin{pmatrix}
5 & 1 \\
-3 & 1 \\
\end{pmatrix}
=
\begin{pmatrix}
5 & 1 \\
-3 & 1 \\
\end{pmatrix}
\begin{pmatrix}
-1 & 0 \\
0 & 7 \\
\end{pmatrix} \\
\begin{pmatrix}
5 \\
-3 \\
\end{pmatrix}
に-1が対応し、 \\

\begin{pmatrix}
1 \\
1 \\
\end{pmatrix}
に7が対応している。

式を変形すると

AV=VΛ \Longrightarrow A=VΛV^{-1} \\
\begin{pmatrix}
2 & 5 \\
3 & 4 \\
\end{pmatrix}
=
\begin{pmatrix}
5 & 1 \\
-3 & 1 \\
\end{pmatrix}
\begin{pmatrix}
-1 & 0 \\
0 & 7 \\
\end{pmatrix}
\begin{pmatrix}
5 & 1 \\
-3 & 1 \\
\end{pmatrix}^{-1}

と表現でき、これを固有値分解という。

特異値分解

正方行列以外の行列の固有値分解(のようなもの)。

\begin{align}
固有値分解:A&=VΛV^{-1} \\
特異値分解:A&=UΣV^{-1} \\
A&=UΣV^{T} \\
\tiny(m \times n)&\tiny=\tiny(m \times m)(m \times n)(n \times n)
\end{align}

Vは直交行列で、

VV^{T}=V^{T}V=I  したがって、V^{-1}=V^{T} \\

特異値の算出

\begin{align}
AA^{T}&=UΣV^{T}VΣ^{T}U^{T} \\
AA^{T}&=UΣΣ^{T}U^{T} \\
A&=VΛV^{-1}に似ている
\end{align}

※$U$は直交行列なので、$U^{-1}=U^{T}$より、$UΣΣ^{T}U^{-1}=UΣΣ^{T}U^{T}$

したがって、$AA^{T}$を固有値分解すれば$U$、$Σ$を算出できる。

\begin{align}
(AA^{T}-λI)\vec{v}&=0 \\
|AA^{T}-λI|&=0 \\
\end{align}

ΣΣ^{T}=
\begin{pmatrix}
σ_1 & 0 & 0 \\
0 & σ_2 & 0 \\
\end{pmatrix}
\begin{pmatrix}
σ_1 & 0 \\
0 & σ_2 \\
0 & 0 \\
\end{pmatrix}
=
\begin{pmatrix}
σ_1^{2} & 0 \\
0 & σ_2^{2} \\
\end{pmatrix}
=
\begin{pmatrix}
λ_1 & 0 \\
0 & λ_2 \\
\end{pmatrix} \\
特異値:σ=\sqrt λ

特異ベクトルの算出

$AA^{T}$の固有ベクトルをもとめることによって$A$の左特異ベクトル$U$を算出できる。
上で算出した$AA^{T}$の固有値$λ$を下記の式に代入し、固有ベクトルを算出する。

\begin{align}
(AA^{T}-λI)\vec{v}&=0 \\
\end{align}

同様に、
$A^{T}A$の固有ベクトルをもとめることによって$A$の右特異ベクトル$V$を算出できる。

これにより、

\begin{align}
特異値分解:A&=UΣV^{-1} \\
A&=UΣV^{T} \\
\tiny(m \times n)&\tiny=\tiny(m \times m)(m \times n)(n \times n)
\end{align}

を計算するための要素が全て算出でき、これを特異値分解という。

特異値分解の応用例

特異値分解したデータから成分の小さい部分を取り除く度合いが多くなるほど特徴がなくなっていくが、データ量を小さくすることができる。

2. 確率・統計

集合

数学的には要素が集まったもの
$S={a,b,…,g}$
$a \in S$、$b \in S$、$h \notin S$などと表現できる。
$M={c,d,g}$があったとすると、$M \subset S$と表現できる。

和集合と共通部分

和集合:A or Bという集合
$A \cup B$

共通部分:A and Bという集合
$A \cap B$

絶対補と相対補

絶対補
$U \setminus A = \overline{A}$
A以外のすべてという意味

相対補
$B \setminus A$
Bの中のAを除いたものという意味

確率

頻度確率(客観確率)

・発生する頻度
例:「10本のうち1本だけあたりのくじを引いて当選する確率を調べたところ10%であった」という事実

ベイズ確率(主観確率)

・信念の度合い
例:「あなたは40%の確率でインフルエンザです」という診断

確率の定義

$P(A)=\frac{n(A)}{n(U)}=\frac{事象Aが起こる数}{すべての事象の数}$
$\tiny確率はゼロから1の間の値をとる$

A以外の確率
$P(\overline{A}) = 1 - P(A)$

条件付き確率

ある事象Bが与えられた下で、Aとなる確率
$P(A|B) = \frac{P(A \cap B)}{P(B)} = \frac{n(A \cap B)}{n(B)}$

独立な事象の同時確率

お互いの発生には因果関係のない事象Aと事象Bが同時に発生する確率
$P(A \cap B) = P(A)P(B|A) = P(A)P(B)$
$P(A \cup B) = P(A) + P(B) - P(A \cap B)$

ベイズ則

事象Aと事象Bに対して以下のようなること
$P(A)P(B|A)=P(B)P(A|B)$

確率変数と確率分布

  • 確率変数
    事象と結び付けられた数値

  • 確率分布
    事象の発生する確率の分布

期待値

その分布における、確率変数の平均の値 or 「ありえそう」な値

事象X $X_1$    $X_2$    ・・・ $X_n$    
確率変数:f(X) $f(x_1)$ $f(x_2)$ ・・・ $f(x_n)$
確率:P(X) $P(x_1)$ $P(x_2)$ ・・・ $P(x_n)$

$E(f)=\sum\limits_{k=1}^n P(X=x_k)f(X=x_k)$
$E(f)=\int P(X=x)f(X=x)dx$(連続する値の場合)

分散と共分散

  • 分散
    データの散らばり具合を表す
    データの各値が期待値からどれだけズレているかの平均

  • 共分散
    2つのデータ系列の傾向の違い
    正の値なら似た傾向
    負の値なら逆の傾向
    ゼロなら関係性に乏しい

様々な確率分布

  • ベルヌーイ分布
    コイントスのイメージ
    裏と表で出る割合が等しくなくとも扱える

  • マルチヌーイ(カテゴリカル)分布
    さいころを転がすイメージ
    各面の出る割合がひとしくなくとも扱える

  • 二項分布
    ベルヌーイ分布の多試行版

  • ガウス分布
    釣鐘型の連続分布

推定

母集団を特徴づける母数(パラメータ:平均など)を統計学的に推測すること

  • 点推定
    平均値などを一つの値に推定すること

  • 区間推定
    平均値などが存在する範囲(区間)を推定すること

推定量と推定値

  • 推定量(estimator)
    パラメータを推定するために利用する数値の計算方法や計算式のこと。推定関数とも。

  • 推定値(estimate)
    実際に試行を行った結果から計算した値

標本平均

母集団から取り出した標本の平均値
サンプル数が大きくなれば母集団の値に近づく→一致性
サンプル数がいくらであっても、その期待値は母集団の値と同様→不偏性

標本分散

母集団から取り出した標本の平均値
サンプル数が大きくなれば母集団の値に近づく→一致性
サンプル数がいくらであっても、その期待値は母集団の値と同様→不偏性

3. 情報理論

自己情報量

  • 対数の底が2のとき,単位はビット(bit)
  • 対数の底がeのとき,単位は(nat)

$I(x)=-log(P(x))=log(W(x))$

シャノンエントロピー

自己情報量の期待値

$H(x)=E(I(x))=-E(log(P(x)))=-Σ(P(x)log(P(x)))$

カルバック・ライブラー ダイバージェンス

同じ事象確率変数における異なる確率分布P、Qの違いを表す

$D_{KL}(P||Q)=E_{x \sim P}\left[log\frac{P(x)}{Q(x)}\right]=E_{x \sim P}[logP(x)-logQ(x)]$

交差エントロピー

  • KLダイバージェンスの一部分を取り出したもの
  • Qについての事故情報量をPの分布で平均している

$H(P,Q)=H(P)+D_{KL}(P||Q)$
$H(P,Q)=-E_{x \sim P}logQ(x)$

講義を受けて

線形代数、確率・統計についてはこの後のフェーズの基礎となる部分かと思われるため、自分で計算できるくらいになる必要がある。
情報理論については現時点ではよくわかっていないため、後の機械学習や深層学習のフェーズとからめて理解を深める必要がある。