LASの論文まとめ


Listen, Attend and Spellを読んで理解したことを綴っていく

(未完成、随時更新しまつ)

LASの概要

Listen, Attend and Spell(LAS)は、音声の音素を文字に変換するニューラルネットワークである。LASは主に、Listener(聴く者)とSpeller(綴る者)の二つの構成要素をもつ。 Listenerはピラミッド型リカレントネットワークのエンコーダであり、入力としてfilter bank spectraを受け取る。Spellerはattention-based型リカレントネットワークのデコーダであり、文字を出力する。文字間の独立推定をすることなくLASは、文字列を出力することができる。

introduction

"triple a"といったフレーズを考えると、モデルは"triple a"と"aaa"を生成する。CTCのようなモデルはフレーム間の独立推定を行ってしまうために、同じ音素で構成された文を生成する際、問題が起きてしまう。

エンコーダのピラミッド構造がない場合、ニューラルネットのトレーニングが遅くなり、一ヶ月でも終わらなくなり、エラーの割合がとても高くなる。なぜなら、音響信号にはRNNの学習を遅くする要因となる非常に多くのノイズが存在するためである。

LASのグーグル音声タスクに置けるWERは、辞書や言語モデルを用いない場合、14.1%となった。言語モデルを使用した場合、LASは10.3%のWERを達成した。比較対象としてグーグルの世界最高精度であるCLDNN-HMMシステムは、同じデータセットを用いて8.0WERを達成した。

Model

このセクションでは、入力として音響信号の特徴を受け取り英語の文字を出力するLASについて解説する。入力として、$x = (x_1,...,x_T)$のフィルタバンク特徴量列を与え、出力として文字列$\vec{y} = ((sos),y_1,...,y_S,(eos)), y_i \in (a,b,c,...,z,0,...,9,(space),(comma),(period),(apostrophe),(unk))$を排出する。ここで、(sos)と(eos)は、特別な記号であり、文の始まりと終わりをそれぞれ表している。

書く文字の出力$y_i$を以前の文字$y_{<i}$と入力信号の条件付き確率を求めることを目的とする。
$P(y|x) = \prod_{i} P(y_i|x, y_{<i})$
LASのListenは、二つの構造でできている。listenerとspellerである。listenerは音響モデルのエンコーダであり、主な動作は「聴く」ことである。spellerは、文字のデコーダであり、主な動作は音響モデルを「処理し綴る」ことである。Listenerは、入力信号をより高級なベクトル$h=(h1,...,h_U)$ with $U<T$へと変換することである。一方で、Spellerは、