Towards Streaming Perception の解説


こんにちは、高校生の kamikawaです。
機械学習に興味があって勉強中です。特にCV分野に興味があります。

今回はECCV2020でBest paperに選ばれた「Towards Streaming Perception」という論文について解説します。

自動運転やVR、ARなど、リアルタイムでのperceptionに興味がある方、ぜひご覧ください。
間違い等あればご指摘お願いします。

プロジェクトページ
Git Hub
YouTube

概要

モチベーション:リアルタイムで認識から再行動までを行うための高速で正確なperceptionの実現

  • オフラインの評価と実世界への応用との間に矛盾を指摘
  • レイテンシと精度を一貫して評価できる指標を提案
  • ストリーミング環境下の様々なタスクへ応用できるメタベンチマークを提案
  • ストリーミング環境下のタスクで、性能を向上させるための手法を提案

提案されたベンチマーク

  • streaming accuracy

    • レイテンシと精度を一度に評価できる
      • 評価指標を確立
  • pseudo ground truth

    • 高フレームレートかつ高アノテーションレートのデータセットを人の手を使わずに作れる
      • データセット不足を解消
  • infinite GPUsシミュレーション

    • モデルの性能を最大化するために必要なGPU数が分かる
      • 実用化に向けた計算資源に関する知見が得られる

提案手法

ストリーミング環境でperceptionの性能を向上させるための汎用的な手法を提案している

  • 動的スケジューリング
    • 処理すべきフレームを決定する
      • レイテンシの累積を防ぐ
  • 状態予測
    • 物体の将来の位置を予測する
      • レイテンシを補う
  • トラッキング
    • 検出器より高速に動作する
      • レイテンシを減らす

背景

ストリーミング環境下でのperception(YOLOやSSDなど)は難しい

  • レイテンシの問題
    • 処理を行っている間に物体が移動してしまう
    • 精度とレイテンシを間にトレードオフがある
  • 良い評価指標がない
    • レイテンシと精度のトレードオフの良さを測りたい
  • データセットが少ない 
    • 高フレームレートかつ高アノテーションレートのデータセットが欲しい

従来のCV分野(リアルタイム)の研究

自動運転やVR、ARなどストリーミング環境で高度なperceptionの需要は高まっている

多くの研究:オフライン環境で精度とレイテンシを評価し、トレードオフを指摘
高速な検出器 ・・・ 精度が低い
高精度な検出器・・・ 遅い

オフライン環境で測定された精度とruntime

この研究

オフライン環境での評価と実世界での応用との間に矛盾

  • オフライン環境 (従来の研究)
    • 一枚のフレームの処理が終わった段階で次のフレームが与えられる
      • レイテンシが累積しない
  • ストリーミング環境 (実世界での応用)
    • 処理が終了したかどうかに関わらず、次々とフレームが与えられる
      • レイテンシが累積する

従来の研究のようなオフライン環境での実験や評価には問題がある

高度なperceptionを実現するために

実世界の応用:人間の反応時間(200ms)に匹敵する速さのperceptionが求められる
ストリーミング環境特有の課題 : アルゴリズムが処理を終えるまでに周囲の環境が遷移してしまう

そのため、周囲の環境を認識・行動するためには、将来の状態を予測することが必要

提案ベンチマークの詳細

streaming accuracy

  • 適切な評価指標を確立
    • 精度とレイテンシを一貫して評価
    • トレードオフの良さを評価できる
  速い 遅い
正確
不正確 ×

指標の特徴

従来の評価 今回の評価
ground truth 入力フレームを使用 現在のフレームを使用
生成された予測 入力フレームから生成 入力フレームから生成
評価の式 ( yt , y^t ) ( yt , y^φ(t) )

t : 連続的な時間(i = 1 ~ T)
φ(ti) : アルゴリズが最後に予測を出した時間 φ(ti) = argmaxj sj < ti
sj : 特定の予測(y^)が要求された時間 ( j = 1 ~ N < T)

Lstreaming : streaming accuracy
L : 評価関数(AP、IoUなど)
y : ground truth 
t : 連続的な時間( i = 1 ~ T) 
y^ : 予測
φ(ti) = argmaxj sj < ti
sj : 特定の予測(y^)が要求された時間 ( j = 1 ~ N < T)

様々な評価指標(AP,IoUなど)を拡張し、レイテンシと精度を同時評価できる

pseudo ground truth

  • 高フレームレートかつ高アノテーションレートのデータセットを人の手を使わずに作れる
    • 擬似的なground truth を作成する
    • 高精度の評価器(HTC)がオフライン環境で物体検出を行なった結果を用いる
    • pseudo ground truth によるAPと実際のground truthを用いたAPは相関が高い
      • 相関係数 : 0.9925(正規化済み)
    • 性能評価に用いることができる (今回の性能評価には用いられていない)

infinite GPUsシミュレーション

  • モデルの性能を最大化するために必要なGPU数が分かる
  • 仮想的にGPU資源が無限である状態でシミュレーション
    • 各GPUタスクを別々のデバイス割り振る
  • タスクのパフォーマンスを最大化するために必要なGPUの数が分かる
    • ハードウェア設計に役立つ可能性がある

左は単一のGPUでの処理:一つのデバイスが複数のGPUタスク(例 : 物体検出、状態予測、トラッキングなど)を行う
右はinfinite GPUsでの処理:一つのデバイスは一つのGPUタスクを行う

提案手法の詳細

動的スケジューリング

  • 処理すべきフレームを決定する
    • レイテンシの累積を防ぐ

t : 連続的な時間(i = 1 ~ T)
sj : 特定の予測(y^)が要求された時間(離散) ( j = 1 ~ N < T)
r : ランタイム = 1フレームを処理するのに必要な時間

τ(s+r) < τ(s)ならば 現在のフレームを処理する
τ(s+r) > τ(s)ならば 現在のフレームを処理せず、新しいフレームを待つ

状態予測 

  • 物体の将来の状態を予測することで、レイテンシを補う
    • バウンディングボックスの状態遷移をもとに予測
      • 入力 : BBの左上の座標(x,y)、高さ(h)、幅(w)
  • カルマンフィルターによる予測が最も高性能
    • 4~80%の性能上昇を確認(平均で33%上昇)
  • 軽量

Streamer(Meta-Detector)

Streamer(Meta-Detector) : 動的スケジューリング + 状態予測(Kalman filter)

  • レイテンシ、精度に関わらず、様々なモデルに搭載できる
  • 同期的な処理が可能になる


右は通常のモデル、左はStreamerを取り入れたモデル
通常モデルは、レイテンシによって非同期的に予測を出すことしかできない
Streamerを取り入れたモデルは同期的に予測を出せる

トラッキング

  • 検出器より高速に動作する
    • レイテンシを減らすために高速化
      • 以前検出されたオブジェクトのみを追跡
      • 最新の物体の位置を入力とし、領域提案を省略

領域提案(RPNのhead)を省略することで24%ランタイムを削減できる

実験

データセットはArgoverse-HDを用いた (詳細は後述)

  • 米国の2つの都市からの多様な走行シーンを収録

  • フレームレート : 30FPS
  • アノテーション レート : 30FPS
  • 人、自転車、自動車、バイク、バス、トラック、交通信号、止まれの標識の8クラス

ストリーミング環境とオフライン環境の比較

物体検出のみを行う
HTCやMask R-CNN、RetinaNet などのモデルを用いて実験した

結果

  • ストリーミング環境ではAPが大幅に低下する

(AP₅₀ , AP₇₅ とは、IOU が 0.5 , 0.7 を閾値としたAP
@の後の数字は入力のスケール
*は前処理にGPUを使用したもの)

  • 高速なモデル(3),(4)は性能が低い

    • ランタイムのベースライン : 33ms = 30FPSのフレーム間隔(1000/30)を達成している
    • フレーム間隔で処理を行っており、レイテンシは0であるが精度が低い

  • 入力スケール0.5のMask R-CNN R 50が最高性能
    • ストリーミング環境ではHTCより性能が高い

infinite GPUsでの検証結果

  • infinite GPUsにおいて、複雑な検出器の方が性能が良い
    • 入力スケールを0.5から0.75、ランタイム約2倍
  • 4つのGPUでstreaming accuracy を最大化できる

動的スケジューリングの有効性の検証

物体検出のみを行う
Mask R-CNN R50で動的スケジューリングの有無による性能差を評価する

結果

  • 動的スケジューリングを取り入れたアルゴリズムは性能が向上
    • AP , APւ において1.0 / 2.3 性能が向上

状態予測の有効性の検証

  • 状態予測を取り入れたモデルの性能評価
    • 物体検出 + アソシエーション + 状態予測
      • アソシエーション : IOUベースのgreedy matchingを使用
      • 状態予測 : カルマンフィルターを使用

結果

  • 状態予測によって性能が向上 
    • AP比 13.0 : 16.7
  • 複雑なアルゴリズムの方が性能が高い
    • Mask R-CNN(ResNet 50)が最高性能
    • 入力スケール、ランタイムが共に大きい方が高性能

トラッキングの有効性の検証

トラッキングを取り入れたモデルの性能評価

  • Mask R-CNN (ResNet 50)を使用
  • VOT2019 Challenge で2位になったモデルTracktorを使用
    • 物体検出にはFPNを使用
  • 2,5,15,30 の固定ストライドで実験
    • (30固定ストライド→検出器を1回実行してからトラッカーを29回実行)

通常速度のモデルの性能評価

  • 通常速度のトラッキングモデルは、アソシエーションに比べて性能が劣る
    • トラッキングのみ AP比 12.0 < 16.7
    • +状態予測    AP比 13.7 < 16.7

高速化したモデルの性能評価

高速化したトラッキングモデル

  • 以前検出されたオブジェクトのみを追跡
    • 最新の物体の位置を入力とし、領域提案(RPN)を実行しない

結果

  • 同精度で2倍に高速化したモデルは、アソシエーションに比べて性能が良い
    • トラッキング+ 状態予測  AP比 19.8 > 16.7

分析と課題

  • ストリーミング環境はオフライン環境より遥かに難しい
    • 性能差はAP比 20.3 : 38.0
  • 汎用的な内部表現によってstreaming accuracyが向上
    • 動的スケジューリング、トラッキング、状態予測など
  • 精度とレイテンシの最適なトレードオフが存在
    • streaming accuracyの最大化する点が最適なトレードオフ
  • 動的スケジューリングの有効性
    • 場合によっては「処理をしない」ことでレイテンシを最小化できる

追加情報

データセットの詳細

Argoverse-HD

  • Argoverse 1.1 をストリーミング評価用に拡張したもの
  • 米国の2つの都市からの多様な走行シーンを収録
  • RGB画像(1920 × 1200)
  • 15~30秒の動画が30本 
    • 総フレーム数 : 15k 
  • フレームレート : 30FPS
  • アノテーション レート : 30FPS
  • アノテーションはMSCOCOに従って行なった
  • 人、自転車、自動車、バイク、バス、トラック、交通信号、止まれの標識

End-to-Endに向けた実験

  • 本編の実験では、様々なモジュールに分けてを検証した
    • 物体検出、状態予測、トラッキングなど
  • 今回の実験では、F2Fを使用する
    • 直接、検出結果を出力するモデル

結果

  • F2Fはカルマンフィルターより性能が低い

レイテンシを減らすテクニック

画像の前処理
モチベーション : 画像の前処理におけるレイテンシを減らしたい

  • 前処理にCPUを用いるのではなくGPUを用いる
    • *は前処理にGPUを使用したもの

最後に

図は論文プロジェクトページGit HubYouTubeから引用しています。(一部編集を加えた箇所もあります)

記事をご覧いただきありがとうございました。
今後も機械学習の論文について解説していきたいと思いますのでよろしくお願いします。