一、 簡介
本文介紹了不同的角度估計方法在同一情況中的比較,以及對影響性能的關鍵因素的詳細分析。接下來,我們提出了一種新的聯合訓練方法和檢測任務,並證明了它的好處。我們還強調了分類方法優於回歸方法的優越性,量化了更深層架構和擴展訓練數據的優勢,並證明即使使用ImageNet訓練數據,合成數據也是有益的。
二、參考文獻
1. CVPR2016: Crafting a multi-task CNN for viewpoint estimation
by Massa, Francisco,
Marlet, Renaud,
Aubry, Mathieu
2. ICCV2015: Render for CNN: Viewpoint estimation in images using CNNs trained with rendered 3D model views
by H. Su, C. R. Qi, Y. Li, and L. J. Guibas.
三、數據集
Pascal 3D+(物體檢測)
四、4種pose estimation方法
1. 基於回歸的Viewpoint estimation

可能是表示方向的最簡單方法

具有比前一個更高的維度,允許網絡更靈活地更好地捕獲姿勢信息。
這些表示具有不同的輸出維數Nd,分別為2和3。
損失函數為:

H(●)表示huber loss
Huber Loss 是一個用於回歸問題的帶參損失函數, 優點是能增強平方誤差損失函數(MSE, mean square error)對離群點的魯棒性。
當預測偏差小於 δ 時,它采用平方誤差,當預測偏差大於 δ 時,采用的線性誤差。
相比於最小二乘的線性回歸,HuberLoss降低了對離群點的懲罰程度,所以 HuberLoss 是一種常用的魯棒的回歸損失函數。


回歸方法對視點估計的主要限制是它不能很好地表示不同視點之間可能存在的模糊性
實際上,諸如Table之類的對象具有對稱性或近對稱性,這使得視點估計問題本質上是模糊的。
該問題的一個解決方案是對姿勢空間進行解體並預測每個方位區的概率,從而將問題公式化為分類之一
2. 基於分類的Viewpoint estimation
2.1 直接分類

2.2 幾何結構感知分類(Geometric structure aware classification)
先前分類方法的缺點在於它學習預測姿勢而 沒有明確地使用viewpoint之間的連續性。 兩個相鄰的bin確實有很多共同之處。 這種幾何信息對於細粒度方向預測可能尤其重要

輸出

原論文:d是兩個視點之間的距離,被定義為2維球(圓)上的(θ, φ)點的測地距離(兩點之間最近距離)加上ψ的l1距離。
本文:the distance between the centers of the two bins

五、聯合目標檢測和角度估計

我們僅在pool5層共享檢測和姿勢估計網絡的權重。 這對於獲得良好的性能至關重要,因為回歸和分類損失足夠不同以至於共享更多權重會導致更糟糕的結果。
相同的2分支方法一樣也可以用於分類
作者提出了一個一種新的更簡單且無參數的方法來在分類設置中執行聯合檢測和姿態估計。

輸出對於每個類和bin的聯合概率?輸出每個類c在x方向的概率
六、實驗



https://arxiv.org/abs/1412.7122v3 synthetic數據論文
七、討論(開會后的總結:參與人員和QA)
QA: