[論文コメント]YouOnly Look Once:Unified,Real-time Object Detection


Object Detection


2-stage Detector

  • 二次検出器:特徴抽出、オブジェクト分類順に配置
  • プロパティ
  • 速度は遅いが精度は高い
  • 例:Fast R-CNN、OverFeat、DPM
  • DPM:スライドウィンドウ技術(スライドウィンドウによる分類器の運転)
  • を利用する.
  • R-CNN:選択的探索、分類器、包囲箱回帰検出対象枠
  • 1-stage Detector

  • 一級検出器:特徴抽出、一次処理対象分類
  • Pixel -> Bounding box coordinates & class probablities for boxes
  • プロパティ
  • 例:YOLO v 1、SSD
  • YOLO v1(You Only Look Once)

  • 1 stage detector
  • 単一回帰問題に再構築:回帰問題としてターゲット検出

  • 長所
  • Extremely fast : 45 frames per second(Fast YOLO : 155 frames per second, double mAP)
  • fastバージョンがありますが、これは何ですか
  • more localization error, less false positives on background

  • Properties
  • Simple pipeline -> Fast
  • Entire image as a input -> less background errors compared to Fast R-CNN
  • 学習Objects->新しい画像/予期せぬ入力に適用した場合、性能も良好
  • 統合検出:単一ニューロンネットワークを使用してオブジェクトを検出する



    0. end-to-end training and real-time speed
    1. divide input image in to S x S grid()
    -グリッドセルの中央にオブジェクトがある場合は、オブジェクトが検出されたことを示します.
    2. get bounding boxes and confidence scores from bounding boxes
    -confidence scopse:ボックス内のオブジェクトのスコアを正確に検索および分類する方法について
    - confidence=Pr(Object)∗IOUpredtruthconfidence = Pr(Object) * IOU^{truth}_{pred}confidence=Pr(Object)∗IOUpredtruth​
    3.枠線情報:x,y,w,h,confidence
    -x,y:座標
    -w,h:box情報
    - confidence : IOU between the predicted box and ground-truth box
    4.各メッシュユニットで各クラスの条件確率を求める
    -分類オブジェクトpr(Class i}|オブジェクト)pr(Class Object):メッシュ単位がオブジェクトを含む確率
    -最終予測値:S x S x(B*5+C)
      - ![](https://miro.medium.com/max/630/1*YG6heD55fEmZeUKRSlsqlA.png)
      
      

    Network Architecture


  • 24 conv layers, 2 fc layers, alternating 1 x 1 conv layers
  • Training


  • Properties
  • Model
  • pretrain 20 convolutional layers on ImageNet 1000-class competition dataset
  • で検出する4つの畳み込み層と2つの全接続層
  • final layer : predicting class probabilities and bounding box coordinates
  • Leaky ReLU activation for every layers except linear activation function with final layer
  • optimization for sum-squared error
  • および-平方誤差:サイズボックスに同じ重み
  • を適用

  • Loss function
  • localization error, classification error

  • Parameters
  • epochs = 135
  • batch size = 64
  • momentum = 0.9
  • decay = 0.0004
  • learning rate
  • 1 epoch : 10−310^{-3}10−3
  • 2 ~ 75 : 10−210^{-2}10−2
  • 76から30 epoch:10310^{-3}103
  • ;
  • Last 30 epoch : 10−410^{-4}10−4
  • 学校を中退し、データは
  • 増加した.

    Limitation

  • Spatial constraints
  • メッシュユニットは1つのクラスしか予測できないため、近いオブジェクトでは
  • が脆弱です.
  • Boodingbox形式のデータ学習
  • は、新しい形態または特殊な形態にとって脆弱な
  • である.
  • 損失関数方程式において、小包囲箱の損失はIOUであり、位置決めに悪影響を及ぼす
  • である.

    Fast YOLO : fewer layers, fewer filters but training, testing parameters are same -> HOW COME????


    リファレンス

  • object detection
  • YOLOv 1コメント、実施-skhim 520ブログ