0 - 背景
人體姿態識別存在遮擋以及關鍵點不清晰等主要挑戰,然而,人體的關鍵點之間由於人體結構而具有相互關系,利用容易識別的關鍵點來指導難以識別關鍵點的檢測,是提高關鍵點檢測的一個思路。本文通過提出序列化結構模型,來提高人體姿態識別任務的效果。
1 - 貢獻
- 使用一個序列卷積結構模型學習表達空間信息
- 采用系統的方法來設計和訓練模型,以學習圖像特征和依賴圖像空間模型進行結構化預測的任務
- 在MPII/LSP/FLIC等數據集上實現了最好的性能
- 分析了聯合訓練一個多階段、中間重復監督的架構的效果
2 - 整體思路
2.1 - CPM(Convolutional Pose Machines)
Convolutional Pose Machines(CPM)算法思想來自於Pose Machine,其網絡結果如下圖:

圖中(a)和(b)是pose machine中的結構,(c)和(d)是其對應的卷積網絡結構,(e)展示了圖片在網絡中傳輸的不同階段的感受野。
- Stage 1:對輸入圖片做處理,其中$X$代表經典的VGG結構,並且最后采用$1 \times 1$卷積輸出belief map,如果人體有$k$個關鍵帶來,則$belief map$的通道數為$k$
- Stage T:對於Stage 2以后的Stage,其結構都統稱為Stage T,其輸入為上一個Stage的輸出以及對原始圖片的特征提取的聯合,輸出於Stage 1一致

2.2 - 損失函數
損失函數公式如下:
$$f_t=\sum_{p=1}^{P+1}\sum_{z\in Z}\begin{Vmatrix}b_t^p(z)-b_*^p(z)\end{Vmatrix}^2_2$$
3 - 實驗
3.1 - intermediate supervision
如果直接對整個網絡進行梯度下降,輸出層的誤差經過多層反向傳播會大幅減小,而發生梯度消失現象。

本文為了解決這個問題,提出了中間監督方法,從而保證底層參數的正常更新。

效果如下圖,可以看到,加入中間監督之后,在靠近輸入的stage,其梯度比沒有中間監督大很多,從而保證學習的效果。

3.2 - 感受野
CPM采用大卷積核獲得大感受野,對於被遮擋的關鍵點檢測很有效果。並且本文通過實驗表明了隨着感受野的增大,預測的准確率上升,如下圖:

文中提出增大感受野有如下幾種方式:
- 增大pool,但會損失較多信息從而減小了精度
- 增大卷積核,同時會增加參數量
- 增加卷積層,層數過多容易產生梯度消失等問題
4 - 參考資料
https://arxiv.org/abs/1602.00134
https://blog.csdn.net/cherry_yu08/article/details/80846146
https://blog.csdn.net/shenxiaolu1984/article/details/51094959
https://www.cnblogs.com/JillBlogs/p/9098989.html
