R-CNN


Abstract


R-CNN.
Region with Convolutional Neuron Networkは、領域を設定し、CNnsを利用してオブジェクト検出を行うニューラルネットワークです.

Input画像で選択的探索を行い,2000個の候補領域を抽出した.
生成された候補領域をCNN構造に入れるために,これを固定サイズ(warped region)にし,その後,2000個の物体を予備訓練されたCNNネットワークに入れて特徴ベクトルを抽出した.特徴ベクトルについては,仮想マシンを用いて各クラスのscoreを計算して分類し,Regressionsにより物体の位置を固定ボックスとして予測した.

Warped region



Selective Search


  • 全分野に対して異なる規模の地域候補を作成する.
  • 領域について色、テクスチャ、size、fillの値を計算します.
  • 隣接する2つの地域間の類似度を求める
  • 類似度の高いものから順に合併し、2000個を構成する.
  • Bounding box regression


    位置決めによってより正確なオブジェクトが見つかったバインドボックスを使用すると、より正確になります.

    boundingbox回帰の目的は、実際のboxと同様の推奨boxを作成することである.

    Training


  • 事前に訓練されたCNN構造を用いてILSVVRC 2012分類データセットを実現

  • Fine-tuning

  • Object category classifiers
    -クラスごとにLinearsvmを構築して学習します.
  • Result(VOC 2010-12)



    結果
    :R-CNNは、選択的検索を使用したUVA、Regionletよりも優れたパフォーマンスを示しています.さらに,bb回帰学習を用いたモデルはより良い性能を有することが分かった.
  • ILSVRC 2013

    既存システムと比較して性能上の優位性を示した.
    箱の筋から見ると、箱は上にある.
  • Visualizaing learned features

    CNNは何かの可視化を学んだ
  • Ablation Studies


    VOC 2007 test
    -微調整するかどうか
    学習するかどうか-b-b-box回帰
    -DPM(ベースライン)との比較
    결과: fine tuning과 b-box regression 학습은 더 좋은 성능을 만들어냈다.

    他の2つのCNN構造の比較試験.
    결과
    : O-Net(VggNet)의 결과가 더 좋다.
    복잡도가 더 크기 때문이다. (CNN으로부터 얻은 피쳐의 표현 능력이 좋아짐)

    Semantic segmentation

    Summary

  • 検出タスクの性能が2倍以上向上した.
    1.Region Projectionアルゴリズムから得られた結果とCNNによって代表性が向上したためである.
    2.画像の固定化により画像が破損するという欠点がある.
    3.2000ヵ所をそれぞれCNNで運営しているが、勉強時間が長いのが短所だ.
  • Ref)
    https://arxiv.org/pdf/1311.2524.pdf
    https://www.youtube.com/watch?v=X4TxIPuYu0E