顔特徴点検出:TCDCN


『Facial Landmark Detection by Deep Multi-task Learning』論文解読
この文章はECCV 2014に発表され、香港中国語大学の湯暁鴎課題グループから来た.論文の原文は以下の通りである.
http://mmlab.ie.cuhk.edu.hk/projects/TCDCN.html
概要
文章は顔の特徴点検出の新しい方法を提案し,顔に関連する属性を用いて顔の特徴点位置を共に学習した.
we wish to optimize facial landmark detection together with heterogeneous but subtly correlated tasks, e.g.head pose estimation and facial attribute inference.
具体的には、顔の特徴点を検出する際に、性別、眼鏡を持っているかどうか、笑顔をしているかどうか、顔の姿勢を含む複数のタスクの学習を同時に行う.これらの補助的な属性を使用すると、特徴点の位置決めがよりよくなり、論文の結果に基づいて、顔の特徴点の検出に一定の助けがある.このようなMulti-task learningの困難は,異なるタスクには異なる特徴があり,異なる収束速度にある.この2つの問題に対して,前者の解決策はtasks-constrained deep modelであり,後者の解決策はtask-wise early stoppingである.文章の中の方法は遮蔽と姿勢の変化がある場合によく表現され,モデルは比較的簡単である.
AT図のように、顔の特徴点検出は、複数の補助タスクと同時に行うことができ、前人のCNNとCascaded CNNと比較して、本明細書はより良い表現を有する.
論文の解読
tasks-constrained deep model
従来のマルチタスク学習(multi-task learning)は、各タスクに同じ重みを与える
argminw∑t=1T∑i=1Nl(yti,f(xti;wt))+ϕ(wt)
損失関数は、異なるタスクの損失関数を直接加算します.一方、顔特徴点検出のタスクでは、異なるタスクは異なるlossを有し、特徴点検出は二乗と誤差であり、他の分類タスクはクロスエントロピー誤差であるため、最後のlossは:
argminwr,{wa}12∑i=1N∥yri−f(xi;Wr)∥2−∑i=1N∑a∈Aλayailog(p(yai|xi;Wa))+∑t=1T∥W∥22
この式から,損失関数の前部分が特徴点検出であり,後部分が異なる分類タスクloss加算であり,最後の項が正則項であることがわかる.訓練では,各タスクは同じ特徴を用い,最後のレベルでのみタスクによって異なる処理(線形回帰または分類)を行う.注目すべきは、この式の
λa論文では具体的な数値は示されていないが,超パラメータと考えられ,自己調整が必要であり,この数値が結果に一定の影響を及ぼすと推定した.
Task-wise early stopping
マルチタスク学習の特徴に対して,本論文では新しいearly stopping法を提案した.補助任務が最良の表現に達した後、この任務は主要任務に役に立たず、この任務を停止することができる.では問題が来て、いつ補助任務を停止しますか?以下の式に示すように、Eavalはタスクaの検証セットlossであり、Eatrはトレーニングセットlossであり、次の式が閾値を超えた場合ϵ この任務を停止します.
k⋅medtj=t−kEatr(j)∑tj=t−kEatr(j)−k⋅medtj=t−kEatr(j)⋅Eaval(t)−minj=1..tEatr(j)λa⋅minj=1..tEatr(j)>ϵ
ここの
ϵ またスーパーパラメータです.訓練は逆伝播であり,論文はStochastic gradient decentを選択した.
ネットワーク構造
本稿のネットワーク構造は比較的簡単である:TCDCN入力ピクチャが40*40の白黒ピクチャであり、その後、4つのボリューム層を経て2*2*64の画像になり、アクティブ化関数は|tanh|を採用し、すなわちtanhに対して絶対値をとる.最後の全接続層では2*2*64の多層構造が100個のshared featureとなり,以上の部分は特徴抽出の動作と見なすことができる.最後のレイヤでは、これらの特徴によって異なる操作が行われ、特徴点検出問題はlinear regressionであり、他の分類問題はlogistic regression(softmax)である.
論文の結果
マルチタスクの有効性
人脸特征点检测:TCDCN_第1张图片は異なるタスクを結合してerrorとfailure rateを効果的に低減することができ、この方法の効果は良好であることがわかる.
Task-wise early stoppingのメリット
人脸特征点检测:TCDCN_第2张图片 Task-wise early stoppingは、検証セット誤差を連続的に低減し、収束速度を向上させることができる.
Cascaded CNNと比べて
人脸特征点检测:TCDCN_第3张图片はもちろん、いいです.文章はIntel Corei 5 CPU上で1枚の画像17 msとして表現されている.
まとめ
本論文の方法は比較的簡単で,モデルも構築しやすく,再現の難点はtask‐wise early stoppingといくつかの超パラメータの選択にあり,この問題はさらなる研究が必要である.