Day 4 - WaveNet のまとめ


この記事は個人的なお勉強用のメモです。

講義

WaveNet

概要

音声生成モデル(音声認識モデルではない)
音声にもかかわらず、Pixel CNN で処理できる。(RNN ではない)

Dilated Convolution

層が深くなるにつれて、畳み込みリンクを離す

Dilated = 1,2,4,8

特徴

パラメータ数に対する受容野が広い。
(1つの出力に利用する複数のパラメータについて、音声の場合は時間が長い)

関連記事

黒本で補習。
WaveNetとは。

数式
p(x)=\Pi_{t=1}^T p(x_t|x_1,x_2,...,x_{t-1})

$t$ より前のすべての時刻ステップをサンプルにする。

構成

コーザル畳み込み(Causal convolution)とダイレイト畳み込み(dilated convolution)の組み合わせ。

コーザル畳み込み(Causal convolution)
  • 過去の時刻ステップだけを用いて畳み込む
  • モデルが入力データの時間順序を破らない
  • 再帰結合を持たないため、RNN に比べて計算が高速
  • 画像処理におけるマスク畳み込み(masked convolution)と似通っている
  • 受容野は広くできない(この点はダイレイト畳み込みでカバー)
ダイレイト畳み込み(dilated convolution)
  • 少ないパラメータで広い範囲を畳み込む
  • フィルタを適用する入力データの場所を数ステップずつスキップ
  • フィルタを入力データの場所の長さに比べて長い領域に適用
拡大度(dilation)

dilationが1なら通常の畳込み、2なら1つ飛ばし、8なら7つ飛ばし。
dilationは出力層に向かうほど大きくなる。