[論文レビュー]Semantic Segmentation用の完全進化ネットワーク


Abstract


FCNは、エンドツーエンド、ピクセルツーピクセルを学習できる進化ネットワークである.
* end-to-end : Segmentation을 위해 사용되는 filter들이 learnable함. 독립적인 딥러닝 모델을 이용하지 않고(not cascade), 하나의 딥러닝 모델 이용함.

* pixel-to-pixel : 이미지의 pixel마다 classification 학습을 진행함.
著者らは,最終的な分割結果はすべての画素を分類する密集予測タスクであると考えている.
コアコンセプトは,任意のサイズで入力値を受信し,対応する出力値を生成する全進化ネットワークである.
AlexNet、GoogLeNet、VGGNetなどの分類ニューラルネットワークを使用して、分割タスクに適応するように最適化します.
浅い情報とdeep情報を結合する新しい構造を定義した.
意味情報と外観情報を組み合わせて使用します.
* semantic information(의미론적 정보) from **deep, coarse layer** : 깊은 레이어에서 뽑은 피쳐들은 외관을 파악하기 힘듦, 하나의 의미를 갖는 정보들을 보여줌, 세밀하지 않음
* appearance information(외관 정보) from **shallow, fine layer** : edge 피쳐들이 추출됨, 세밀한 피쳐들을 잘 추출하여 fine layer라고 함.

1 INTRODUCTION


Semantic分割は,粗から精密への推論により各画素に対して予測を生成する.従来の意味分割に用いられた対流は、各画素としてマークされている.しかし、この方法には解決すべき欠点がある.
各ピクセルを分類する密予測を実行します.
Fully Convolutional Networks(FCNs)
* end-to-end, pixel-to-pixel 기반의 semantic segmentation
* 사이즈의 제약을 받지 않는 입력 이미지(arbitrary-sized inputs)에서 dense prediction을 수행함
* pixelwise prediction과 supervised pre-training을 이용함.
* dense feedforward computation과 backpropagation을 통해 전체 이미지에 대한 학습과 추론을 한 번에 진행함.
* upsampling lyaer는 subsampled pooling을 사용하여 pixelwise prediction 및 학습을 가능하게 함.
著者らのモデルは,分類網を完全に畳み込み,学習の表面上で微調整し,最近の分類を密度予測に変換することに成功した.
skipアーキテクチャを用いて深層意味情報(=太い)と浅い外観情報(=細い)をうまく混合し,分割に用いることができる

FNC以前のセグメント学習方法
  • Patchwise learning:特定サイズのパッチを設定し、CNN→右矢印→入力パッチを入力します.CNNが競合→右矢印→特定クラスに分割すると、パッチの中央にあるピクセルがそのクラスに分割されます.→右矢印→スライドウィンドウでこのプロセス
  • が再開されます.

  • Patchwise学習の問題
  • のすべてのパッチをCNNに入れて分類し、計算量が多い.
  • パッチを培養して大時間、2つのクラスが同時に入り、分類があいまいで、パッチ間の重複部分が大きくなり、繰り返し計算を行う.
  • ブロックのサイズを減らすと、低解像度になり、分類精度が低下します.

  • Pixelwise learning:画像全体をCNNに入れ、投影せずにフィーチャーを抽出→rightArrow→結果C(class)×\times× H ×\times× W形状(区分スコアマップ)→右矢印→各画素位置の最上位レベルスコアに色を割り当てる→右矢印→最終結果H×\times× W (prediction map)


  • Pixelwise学習問題
  • 層が深いほど計算量が大きくなる.
  • の構造化階層フィーチャーを抽出できません.
  • は、これらの問題を解決するためにFCNを設計する.FCNのエンコーダ部を既存のCNN方式で実行し、デコーダ部を貼り付けて分割を行う.
  • 3 FULLY CONVOLUTIONAL NETWORKS


    FCNは任意のサイズの入力値を受け入れ、対応するサイズの出力値を生成する.
    分類ニューラルネットワークをCORSE出力を生成するフルボリュームニューラルネットワークに変換する方法について説明する.ピクセル予測を行うには、この粗出力をピクセルに接続する必要があります.
    アップサンプリングに用いる反ヒダ積層を紹介した.

    3.1 Adapting clssifiers for dense prediction


    典型的な識別ニューラルネットワーク(LENetおよびAlexNetなど)は、固定サイズの入力値を受け入れ、空間情報のない出力値を生成する.これらのニューラルネットワークは次元を固定し,完全に接続された層は空間情報を除去する.しかしながら、これらの完全に接続されたレイヤは、入力値全体を処理するkernelを有するボリュームと見なすこともできる.これをフルボリュームニューラルネットワークに変換すると,分類ニューラルネットワークは任意の大きさの入力値を受け入れてホットマップを生成することができる.

    すべての出力ユニットの接地進捗により,順,逆経路が簡単であり,両者ともボリューム固有の計算効率を利用した.
    分類網を完全なボリュームとして再解釈すると、すべてのサイズ入力の出力マッピングが生成されますが、出力サイズは通常、セカンダリサンプリングによって減少します.分類ニューラルネットワークはフィルタをサブサンプルとして,小さく合理的な計算要件を維持する.これにより、全ボリュームニューラルネットワークの出力がよりコンパクトになり、出力装置の受信場の画素ステップなどの係数が入力の大きさから減少する.

    3.2 Shift-and-stitch is filter dilation


    入力値がconv+poolingを通過すると、サイズが減少します.shift-and-stitch法を検討して復元するがupsampling判断がより効果的であるため,この方法は使用しない.

    3.3 Upsampling is (fractionally strided) contolution


    Course出力を稠密な画素に接続するもう一つの方法は補間である.二重線補間を使用して拡大します.
    アップサンプリング(Up Sample)は、ピクセルが失われた場合のエンドツーエンド学習のためのネットワーク上で行われます.Deコンボリューションネットワークでの使用により、これらの層を反ヒダ層と呼ぶことがある.
    著者らは実験で,ネットワーク内のアップサンプリングが学習の高速で稠密な予測に有効であることを見出した.

    3.4 Patchwise training is loss sampling


    Patchwiseトレーニングと完全ボリュームトレーニングを比較します.Patchwiseトレーニングは,全体画像から抽出した部分を利用する.逆に,完全ボリュームトレーニングは画像全体を入力することによって学習される.
    Patchwiseトレーニングを使用すると、クラスのアンバランスの問題が発生し、完全なボリュームトレーニングは速度と効率の面でより良いです.

    4 SEGMENTATION ARCHITECTURE


    ILSVRC分類ニューラルネットワークをFCNに変更し,アップサンプリングとポイント毎の損失を達成するために構造を修正した.次に,予測を改善するために,粗,意味,ローカル,外観情報を組み合わせたskipアーキテクチャを提案する.
    平均画素交差は、Per−pixel多重logistic損失を用いて学習され、結合された基準で測定される.地面の真実から離れたpixelを無視することを学ぶ.

    4.1 From classifier to dense FCN


    BackboneはVG 16を使用しています.最後の分類器レイヤを捨てて、完全なボリュームに変更します.反ヒダ積層後の粗出力位置に21次元の1×\times× 1ボリュームを追加します.21次元予測PASCALクラス、背景を含む.
    著者らは,基礎ネットワークとしてFCN‐VG 16を実験的に用いた.

    4.2 Image-to-image learning


    損失はすべての画素の空間的総和であるため,著者らは少ない学習率を用いた.
    配置サイズの場合、勾配は20以上のビデオを蓄積し、配置サイズ1はオンライン学習に使用されます.配置処理と同様の方法で最近の勾配で重みを増加させるために,追加の高運動量0.99を試みた.

    4.3 Combining what and where


    セグメントに新しいフルボリュームネットワークを定義します.レイヤーをマージし、出力値のスペース情報を改善します.

    全ボリューム積分クラスは、分割のために微調整することができ、これらのネットワークは、より浅く、より局所的な機能を直接使用するように改善することができる.この出力値は、より高い標準metricsが得られても粗粒度を満たさない.次の図では、FCN-32 sのピクセルが集約されていることがわかります.最後の予測層では、32ピクセルステップがupsampled出力のスケールを制限する.

    この問題を解決するためにfinal予測層と下位層を結合したリンクを追加した.下位レベルを上位レベルに接続します.Fine層を太い層に関連付けると、モデルは局所予測を予測します.
    低解像度層を増幅することにより,2層をscale一致に達させた.カットフィルによって他のレイヤよりも拡張されたアップサンプルレイヤ部分を削除します.その結果、完全に整列した同じサイズのレイヤが作成されます.
    レイヤーをスペースに配置し、[融合](Composite)操作を選択します.融合フィーチャーを接続することで、すぐに1×\times× 1は、ボリュームからなる점수 layerに分類される.接続フィーチャーをメモリに保存するのではなく、接続と後続の分類を移動します.だからskipはまず1×\times× 1ボリュームに融合した各層を採点し,必要な補間とソートを行い,積分を行う.
    Skipセグメントアーキテクチャ:16ピクセルステップ層から予測を開始し、出力ステップを半分に分割します.次にpool 4の上の1で追加のクラス予測を生成します.×\times× 1ボリュームレイヤを追加します.32 dls conv 7から計算される予測値×\times× 2拡大してから拡大します.最後に、入力画像のサイズに拡大します.これをFCN-16 sと呼ぶ.これにします.×\times× 2これを拡大してpool 3の出力値を加えると、FCN-8 sとなります.

    7 CONCLUSION


    Semantic分割に用いるFCNは,あらかじめ訓練された分類器の重み値を伝送し,異なる層表現を融合させ,画像全体のエンドツーエンド学習により精度を大幅に向上させた.「エンドツーエンド」、「ピクセルツーピクセル」の操作により、学習と推論をシンプル化しながら高速化できます.
    リファレンス
    https://deep-learning-study.tistory.com/562
    https://velog.io/@leejaejun/Paper-Review-FCN-Fully-Convolutional-Networks-for-Semantic-Segmentation