LASの論文まとめ

1670 ワード

Speech 音声認識 arxiv 音声認識テキストリンク

Listen, Attend and Spellを読んで理解したことを綴っていく

(未完成、随時更新しまつ)

LASの概要

Listen, Attend and Spell(LAS)は、音声の音素を文字に変換するニューラルネットワークである。LASは主に、Listener(聴く者)とSpeller(綴る者)の二つの構成要素をもつ。 Listenerはピラミッド型リカレントネットワークのエンコーダであり、入力としてfilter bank spectraを受け取る。Spellerはattention-based型リカレントネットワークのデコーダであり、文字を出力する。文字間の独立推定をすることなくLASは、文字列を出力することができる。

introduction

"triple a"といったフレーズを考えると、モデルは"triple a"と"aaa"を生成する。CTCのようなモデルはフレーム間の独立推定を行ってしまうために、同じ音素で構成された文を生成する際、問題が起きてしまう。

エンコーダのピラミッド構造がない場合、ニューラルネットのトレーニングが遅くなり、一ヶ月でも終わらなくなり、エラーの割合がとても高くなる。なぜなら、音響信号にはRNNの学習を遅くする要因となる非常に多くのノイズが存在するためである。

LASのグーグル音声タスクに置けるWERは、辞書や言語モデルを用いない場合、14.1%となった。言語モデルを使用した場合、LASは10.3%のWERを達成した。比較対象としてグーグルの世界最高精度であるCLDNN-HMMシステムは、同じデータセットを用いて8.0WERを達成した。

Model

このセクションでは、入力として音響信号の特徴を受け取り英語の文字を出力するLASについて解説する。入力として、$x = (x_1,...,x_T)$のフィルタバンク特徴量列を与え、出力として文字列$\vec{y} = ((sos),y_1,...,y_S,(eos)), y_i \in (a,b,c,...,z,0,...,9,(space),(comma),(period),(apostrophe),(unk))$を排出する。ここで、(sos)と(eos)は、特別な記号であり、文の始まりと終わりをそれぞれ表している。

書く文字の出力$y_i$を以前の文字$y_{<i}$と入力信号の条件付き確率を求めることを目的とする。
$P(y|x) = \prod_{i} P(y_i|x, y_{<i})$
LASのListenは、二つの構造でできている。listenerとspellerである。listenerは音響モデルのエンコーダであり、主な動作は「聴く」ことである。spellerは、文字のデコーダであり、主な動作は音響モデルを「処理し綴る」ことである。Listenerは、入力信号をより高級なベクトル$h=(h1,...,h_U)$ with $U<T$へと変換することである。一方で、Spellerは、

Author And Source

この問題について(LASの論文まとめ), 我々は、より多くの情報をここで見つけました https://qiita.com/nt-supikiti/items/8b0d68e81b791a3b8824

著者帰属：元の著者の情報は、元のURLに含まれています。著作権は原作者に属する。

Content is automatically searched and collected through network algorithms . If there is a violation . Please contact us . We will adjust (correct author information ,or delete content ) as soon as possible .

android開発()java.lang.SecurityException:Connectivity:

C言語作成入力年月日、この日付の翌日の日付を出力