Day 4 - WaveNet のまとめ
この記事は個人的なお勉強用のメモです。
講義
WaveNet
概要
音声生成モデル(音声認識モデルではない)
音声にもかかわらず、Pixel CNN で処理できる。(RNN ではない)
Dilated Convolution
層が深くなるにつれて、畳み込みリンクを離す
例
Dilated = 1,2,4,8
特徴
パラメータ数に対する受容野が広い。
(1つの出力に利用する複数のパラメータについて、音声の場合は時間が長い)
関連記事
黒本で補習。
WaveNetとは。
数式
p(x)=\Pi_{t=1}^T p(x_t|x_1,x_2,...,x_{t-1})
$t$ より前のすべての時刻ステップをサンプルにする。
構成
コーザル畳み込み(Causal convolution)とダイレイト畳み込み(dilated convolution)の組み合わせ。
コーザル畳み込み(Causal convolution)
- 過去の時刻ステップだけを用いて畳み込む
- モデルが入力データの時間順序を破らない
- 再帰結合を持たないため、RNN に比べて計算が高速
- 画像処理におけるマスク畳み込み(masked convolution)と似通っている
- 受容野は広くできない(この点はダイレイト畳み込みでカバー)
ダイレイト畳み込み(dilated convolution)
- 少ないパラメータで広い範囲を畳み込む
- フィルタを適用する入力データの場所を数ステップずつスキップ
- フィルタを入力データの場所の長さに比べて長い領域に適用
拡大度(dilation)
dilationが1なら通常の畳込み、2なら1つ飛ばし、8なら7つ飛ばし。
dilationは出力層に向かうほど大きくなる。
Author And Source
この問題について(Day 4 - WaveNet のまとめ), 我々は、より多くの情報をここで見つけました https://qiita.com/amateur2020/items/0f3aabfbd87cf933bb93著者帰属:元の著者の情報は、元のURLに含まれています。著作権は原作者に属する。
Content is automatically searched and collected through network algorithms . If there is a violation . Please contact us . We will adjust (correct author information ,or delete content ) as soon as possible .