Learning Feature Pyramids for Human Pose Estimation(理解)


0 - 背景

  人體姿態識別是計算機視覺的基礎的具有挑戰性的任務,其中對於身體部位的尺度變化性是存在的一個顯著挑戰。雖然金字塔方法廣泛應用於解決此類問題,但該方法還是沒有很好的被探索,我們設計了一個Pyramid Residual Module(PRMs)來提高DCNNs的尺度不變性。

  並且我們發現現存的初始化方法並不適用multi-branch的網絡,我們在當前的權重初始化方法上提出了新的方法並給出了理論證明。

1 - 貢獻

  • 提出Pyramid Residual Module來提高深度模型的尺度不變性問題,而只是比DCNNs多一點點復雜性
  • 分析了DCNNs多輸入或者多輸出層的初始化問題(當前MSR和Xavier初始化方法不適用multi-branch網絡),提出了新的權重初始化策略(可以用於許多網絡架構,包括inception models和ResNets)
  • 我們發現在一些場景中激活變化累積是由identity mapping造成的,運用一種簡單的有效解決方案

2 - 整體思路

  

 

2.1 - 尺度不變性

  

  如上圖,(a)和(b)由於透視關系,(a)中的上半身身體部位顯得很大,而相反(b)中的上半身部位顯得小,如果對於不同尺度的身體部位運用相同檢測器,則尺度的變化將嚴重影響檢測器的效果,因此在檢測的時候需要在圖像多變的情況下保證尺度不變性。論文用了如下大致架構:

2.2 - Pyramid Residual Modules (PRMs)

  PRM被形式化描述為:

$$x^{(l+1)}=x^{(l)}+P(x^{(l)};W^{(l)})$$

  其中$P(x^{(l)};W^{(l)})$是特征金字塔,可以被展開為:

$$P(x^{(l)};W^{(l)})=g\begin{pmatrix}\sum_{c=1}^{C}f_c(x^{(l)};w_{f_c}^{(l)});w_g^{(l)}\end{pmatrix}+f_0(x^{(l)};w_{f_o}^{(l)})$$

  其中$C$為金字塔的層數,$f_c(\cdot)$為對於c-th層金字塔的轉換,$W^{(l)}=\{w_{f_c}^{(l)},w_g^{(l)}\}_{c=0}^C$是參數集合。 通過轉換$f_c(\cdot)$的輸出將通過求和進行合並,並且通過卷積核為$g(\cdot)$的卷積。pyramid residual module圖解如下,為了減少計算以及空間的復雜度,每一個$f_c(\cdot)$被組織成bottleneck架構(有點像ResNet,例如通過$1 \times 1$卷積核降低空間維度,而后新的特征通過將$3 \times 3$卷積核應用到一個下采樣的輸入特征集合上,最后所有新的特征上采樣到同一個維度而后合並)。

 

  通過比較,PRM-B的參數更少,需要更少的計算資源但是與其它結構有可比的性能。

2.3 - fractional max-pooling

  由於傳統的pooling操作對於像素的減少太快以至於太過於粗糙,因此論文提出了一種新的fractional max-pooling方式,使得下采樣的尺度平滑,金字塔的c-th層的下采樣率定義為:

$$s_c=2^{-M\frac{c}{C}},\ c=0,...,C,M\geq 1$$

  其中$s_c\in [2^{-M},1]$表示了與輸入特征分辨率的關系。在實驗中,作者的設置為$M=1$以及$C=4$,使得最低的層剛好是輸入分辨率的一半。

2.4 - 評估策略

  通過高斯方法來表示關鍵點,對於每一個關鍵點需要一個評分地圖(score map)。例如,對於真實標簽落在$z_k=(x_k,y_k)$的第$k$個關鍵點,其評分地圖定義為:

$$S_k(p)\sim N(z_k,\Sigma )$$

  其中$p\in R^2$表示了坐標,$\Sigma$是identity matrix $I$的經驗集合,每一個沙漏網絡預測$K$個評分地圖,有$\hat{S}_k=\{\hat{S}_k\}_{k=1}^K$,損失函數定義如下:

$$L=\frac{1}{2}\sum_{n=1}^N\sum_{k=1}^{K}\begin{Vmatrix}S_k-\hat{S}_k\end{Vmatrix}^2$$

  最后預測時候通過如下公式得到精確關鍵點坐標:

$$\hat{z}_k=arg\mathop{max}_p\hat{S}_k(p),k=1,...,K$$

2.5 - Initialization Multi-Branch Networks

  (數學推導沒看懂,后續如果有進展再補充)

3 - 實驗

  在MPII human pose dataset和Leeds Sports Poses (LSP)及其擴充數據集上。

  輸入圖片為$256 \times 256$,單人人體姿態識別,訓練數據集通過scaling/rotation/flipping/adding color noise進行增強,使用RMSProp進行優化,每個GPU的mini-batch size為16,epoch為200,學習率為$7\times 10^{-4}$,在第150次和第170次epoch學習率各減少10倍。測試時候在具有翻轉的六尺度圖像金字塔上進行。

3.1 - MPII Human Pose

  閾值為0.5時我們的方法達到了92.0%的PCKh分數,是新的state-of-the-art結果,特別地是,我們的方法在wrist和ankle上分別實現了1.6%和2.4%的性能提升。而我們的網絡參數從23.7M增加到26.9M(增加了13.5%,因為我們堆疊了八個沙漏網絡),我們的網絡對於$256 \times 256$的$RGB$圖像需要45.9 GFLOPs(相比沙漏網絡的41.2 GFLOPs增加了11.4%)。

      

3.2 - LSP dataset

  我們的方法相比之前最好的結果大幅度提高了3.2%,對於困難的身體部位,如wrist和ankle,我們分別取得了3.7%和5.0%的提升。我們的方法在此數據集上的顯著提升主要是因為該數據集中存在大量透視變化以及極端的姿勢,如下圖所示。

    

  

4 - 參考資料

https://arxiv.org/abs/1708.01101

http://www.aiuai.cn/aifarm174.html

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM