確認問題の考察


・RNN
RNNを特徴づける、一番大事な中間層から中間層への重みが解答となる。

・BPTT1
ある変数が直接微分できない場合、連鎖律を使うことで解くことができる。
逆伝播法では、これがキーポイントなる。

・BPTT2
出力y1を求める式は重みWoutにS1をかけcを加えて求める
y1=g(Wout・S1+c)
ここでS1は入力x1にWinを掛けたものに中間層S0に重みWを掛けたものを活性化関数通したものになる
S1=f(Win・x1+W・S0+b)

・勾配消失1
シグモイド関数を微分したものは左右対称の真ん中が山型となる関数となる。最大値0のとき、は0.25となる

・勾配消失2
勾配のノルムが閾値より大きいときは、勾配のノルムを閾値に正規化するので、クリッピングした勾配は、勾配×(閾値/勾配のノルムと計算される。つまりgradient*rateとなる

・LSTM1
「とても」はあってもなくても文として意味が通じるので、忘却ゲートとなる

・LSTM2
output_gateは関係ないので(1),(2)は消える。忘却ゲートからの値を掛けるのはcとなるので(3)が答えとなる

・LSTM3
LSTMが抱える課題は入力ゲート、出力ゲート、忘却ゲート、CECの4つの部品から構成され、パラメータ数が多くなり計算が膨大になる
CECが抱える課題は勾配が1で学習能力がないこと

・GRU
LSTMは入力ゲート、出力ゲート、忘却ゲート、CEC、GRUはCECがなく更新ゲートとリセットーゲートをもつ。LSTMと比べるとパラメータ数が減り、計算量が少なくなる

・双方向RNN
隠れ層2つの特徴量を消すことなく残すには足したり、掛けたりしてはだめである。そこでconcatenateで合体させる。axisにより合体のさせ方が変わる。0は横に並べる。1は縦に並べる。従って答えはaxis=1となる(4)となる。

・Seq2seq1
答えは(2)となる。(1)は双方向RNN(3)は構文木(4)はLSTM

・Seq2seq2
文の意味となるベクトルを作ろうとしているところなので、(1)となる

・HRED
Seq2seqは一文の一問一答について処理できるある時系列データからある時系列データを作り出す
HREDはSeq2seqの機構にそれまでの文脈の意味ベクトルを解釈に加えられるようにすることで、文脈の意味をくみ取った文の変換をできるようにしたもの
VHREDはHREDが当たり障りのない文脈ついてしか解答を作れなくなったことに対しての解決策。VAEの考え方を取り入れて短い当たり障りのない言葉以上の出力を出せるように改良を施したモデル
・VAE
自己符号化器の潜在変数に確率分布を導入したものとなる。

・word2vec,Attention
RNNは時系列データを処理するのに適したニューラルネットワーク
word2vecは単語の分散表現ベクトルを得る手法
Seq2seqは、一つの時系列データから、別の時系列データを得るニューラルネットワーク
AttentionMechanismは時系列データの中身のそれぞれの関連性に重みをつける手法