ICLR2020のNAS調査(2): 分析・評価系論文4本のアブスト和訳


※ 社内でやってる2月のアドベントカレンダーに遅ればせながら投下すべく,いつにもましてざっくりな記事です

独断と偏見でICLR2020に採択された論文を分類すると,↓のような感じかなと思います.

評価・分析の論文が多いですね.
ということで,どんなことをしてるのか,評価・分析系の論文のアブストをざっくり和訳してみました.

  • Evaluating The Search Phase of Neural Architecture Search
    • TL;DR
      実験的にweight sharingの基礎となる仮説を反証し, なぜSOTAなNAS手法がほとんどランダムサーチと同じになるのかを説明する.
    • アブスト
      NASは新たなタスクのためのdeepなNWのデザインを促進することを目的とする.
      既存手法は①探索空間全体を探索する,②最良の構造を評価する,という2つの段階で構成される,
      現在NAS手法は,下流(最良の構造評価)の結果のみで比較されている. 直観的に,これは各手法の探索戦略の有効性を陽に評価することに失敗している. 本論文では,NASの探索フェーズ評価を提案する, そのために,NASの探索ポリシーで得られた解と,ランダムサーチの解とを比較する. その結果,①平均的に,SOTAなNAS手法はランダムサーチと同程度であること, ②広く使われるweight sharingが,実際のパフォーマンスを反映しない 探索候補のランク付けをしていることから,探索の有効性を減少させていることがわかった. 我々の評価フレームワークにより,NASがランダムサーチより良い構造を見つける手助けになると信じる.
    • 他の方の要約

AutoMLアルゴリズムとrandom searchを比較した研究。
学習したPolicyとrandom samplingとで条件を揃えて比較(randomは複数シードを取り、
最終的なモデルは同epoch数学習)。結果randomを大きく超えるものはなかった。
また、Weight Shareをすると探索結果が悪くなるという重要な示唆。
出典: https://github.com/arXivTimes/arXivTimes/issues/1365

  • Understanding Architectures Learnt by Cell-based Neural Architecture Search

    • アブスト
      NASは画像認識や言語モデル等の与えられたタスクのためのアーキテクチャを自動探索する.探索の効率や有効性の改善が近年注目を集めている.しかし,生成されたアーキテクチャの理解はあまり進んでいない.本論文では,既存のDARTSやENASといったNAS手法が,wideでshallowなセル構造を生成しがちであることを初めて明らかにする.これらの構造は,一貫して速い収束を得やすくその結果としてNAS手法によって選択されやすい.我々の実験的かつ理論的な研究により,これらの速い収束はsmoothな探索空間?(loss landscape)と正確な勾配情報に起因することを確認した.にもかかわらず,これらの構造は必ずしも同じ探索空間内の別の候補に比べてより良い汎化性能に至るわけではなく.そのため既存NAS手法には更なる改善の余地がある.
  • NAS-Bench-1Shot1: Benchmarking and Dissecting One-shot Neural Architecture Search

    • アブスト
      One-shotのNAS手法は,NAS手法を計算的に現実的なものにするうえで,重要な役割を果たしている. しかし,探索プロセスを制御する要素が多いため,いまだにこれらのweight-sharingなアルゴリズムがどう動いているかの理解は十分に進んでいない.これらの要素を検証することを可能にすべく,One-shot NASのための(最新の手法をインスタンス化可能な)一般的なフレームワークと,その評価を大規模なデータであるNAS-Bench-101上でさくっと行うための一般的なフレームワークを提案する.このフレームワークの有用性を示すために,いくつかのSOTAなOne-shot NAS手法を比較し,それぞれの手法がどの程度ハイパラの影響を受けやすいか,またハイパラの調整で改善が可能か,そしてNAS-Bench-101のブラックボックスな最適化でのパフォーマンスを検証した.
  • NAS evaluation is frustratingly hard

    • TL;DR
      NASのパイプラインの異なる要素がどれだけ最終性能に影響するかを検証.また,8つの手法を5つのデータセットでベンチマーク.
    • アブスト
      NASは2012年のCNNと同じくらいに強烈なインパクトを与えることが約束された新分野である.偉大な先行研究が様々な分野で大きな改善を得ているにも関わらず,公平な手法間の比較は未解決な問題のままである.多くの手法が同じテストデータで評価されている一方で,すべての手法で共有されている実験のプロトコルは存在しない.これとablation studiesの未活用から,ある手法がそれ以外に対してなぜ有効なのかの明解さが欠如している.我々の最初のコントリビューションは,8つの手法を5つのデータセットでベンチマークしたことである.異なる探索空間を持つ手法を比較するために,ランダムにサンプリングされた平均的なアーキテクチャに対する相対的な改善量を測る方法を提案する.これによって,ガチガチに調整された探索空間と学習プロセスによるアドバンテージを効果的に除外することができる.驚くべきことに,多くのNAS手法は,平均アーキテクチャを明らかに上回ることは難しいことが分かった.さらに,NASのパイプラインのそれぞれの要素が重要か理解するため,よく利用されるDARTSの探索空間で実験を行った,これらの実験のハイライトは,① 評価プロトコルにおけるトリックが報告されているアーキテクチャの性能にそれなりに影響している,② セルベースの探索空間では,アーキテクチャ間でほとんど性能差がなく,そであるためシードがアーキテクチャのランキングに重大な影響を持っている,③ 人力でデザインされたマクロな構造(セル)が探索されたミクロな構造(操作)よりも重要,④ 8層と20層で探索結果のランキングが変わることから,depthの違いは重要な問題?(phenomenon)である.結論として,現在のNASの落とし穴にはまらないためのベストプラクティスを提案する.

なんだかみんなNASにがっかりしてるのが現状のようですね…
次回以降個々の論文をざっくりながらももう少ししっかり見ていきたいと思います.