Deep Variational Information Bottleneck のメモtt
- Alexander A. Alemi, Ian Fischer, Joshua V. Dillon, Kevin Murphy Google Research
- ICLR 2017
- https://arxiv.org/abs/1612.00410
概要
1999年にTishbyらによって提案されたInformation Bottleneckを変分近似。ニューラルっとでモデル化。VIBは一種の正則化として機能し、汎化性能や敵対的攻撃に対する頑健性が向上する。
information bottleneck
X -> Z -> Y
を考える。Xは入力。Zは隠れ表現、Yは出力。クラス分類タスクではYはラベルになる。ここで、Yを求めるために必要な情報を残したまま、可能な限りZを圧縮表現としたい。
これを実現するために下を最小化する。
R_{IB}(\theta) = I(X,Y;\theta) - \beta I(Z, X; \theta)
Yに関する情報を保ちながら、Xのことを可能な限り忘れたY、が目的。
VAEとの関係
VAEでは、X->Z->X'
が目的で、X
とX'
の差分と、Zと事前分布のKLダイバージェンスの和を最小化する。
VIBの場合は、X->Z->Y
が目的で、Yの予測ロスと、Zと事前分布のKLダイバージェンスの重み付き和を最小化する。この際に係数として指定する$\beta$を調整することで、ボトルネックのサイズを調整する。
評価
permutation-invariant MNIST
CNNを使わない、FCNNを用いた評価。他の正則化手法よりも良いと主張。Zの次元を2次元と、256次元でテスト。2次元のほうは多変量正規分布を事前分布につかっているが、256次元のほうは独立。
2次元の場合で、埋め込み空間をプロット。中心$\mu$で、$sigma$で楕円を描いている
頑健性
0を1と誤認させる攻撃で評価。L0は変化させたピクセルの数、L1,L2はそれぞれマンハッタン距離と、ユークリッド距離を最小にするように攻撃する手法。
左は決定的なベースラインに対する相対。右はドロップアウト込み。ドロップアウトがあると頑健性が向上するが、ベータが大きい領域では、VIBが良いと主張。
Author And Source
この問題について(Deep Variational Information Bottleneck のメモtt), 我々は、より多くの情報をここで見つけました https://qiita.com/hidemotoNakada/items/0daa98ff2c5b33bd2a44著者帰属:元の著者の情報は、元のURLに含まれています。著作権は原作者に属する。
Content is automatically searched and collected through network algorithms . If there is a violation . Please contact us . We will adjust (correct author information ,or delete content ) as soon as possible .