Convolutional Pose Machines(理解)


0 - 背景

  人體姿態識別存在遮擋以及關鍵點不清晰等主要挑戰,然而,人體的關鍵點之間由於人體結構而具有相互關系,利用容易識別的關鍵點來指導難以識別關鍵點的檢測,是提高關鍵點檢測的一個思路。本文通過提出序列化結構模型,來提高人體姿態識別任務的效果。

1 - 貢獻

  • 使用一個序列卷積結構模型學習表達空間信息
  • 采用系統的方法來設計和訓練模型,以學習圖像特征和依賴圖像空間模型進行結構化預測的任務
  • 在MPII/LSP/FLIC等數據集上實現了最好的性能
  • 分析了聯合訓練一個多階段、中間重復監督的架構的效果

2 - 整體思路

2.1 - CPM(Convolutional Pose Machines)

  Convolutional Pose Machines(CPM)算法思想來自於Pose Machine,其網絡結果如下圖:

  圖中(a)和(b)是pose machine中的結構,(c)和(d)是其對應的卷積網絡結構,(e)展示了圖片在網絡中傳輸的不同階段的感受野。

  • Stage 1:對輸入圖片做處理,其中$X$代表經典的VGG結構,並且最后采用$1 \times 1$卷積輸出belief map,如果人體有$k$個關鍵帶來,則$belief map$的通道數為$k$
  • Stage T:對於Stage 2以后的Stage,其結構都統稱為Stage T,其輸入為上一個Stage的輸出以及對原始圖片的特征提取的聯合,輸出於Stage 1一致

2.2 - 損失函數

  損失函數公式如下:

$$f_t=\sum_{p=1}^{P+1}\sum_{z\in Z}\begin{Vmatrix}b_t^p(z)-b_*^p(z)\end{Vmatrix}^2_2$$

3 - 實驗

3.1 - intermediate supervision

  如果直接對整個網絡進行梯度下降,輸出層的誤差經過多層反向傳播會大幅減小,而發生梯度消失現象。

    

  本文為了解決這個問題,提出了中間監督方法,從而保證底層參數的正常更新。

    

  效果如下圖,可以看到,加入中間監督之后,在靠近輸入的stage,其梯度比沒有中間監督大很多,從而保證學習的效果。

3.2 - 感受野

   CPM采用大卷積核獲得大感受野,對於被遮擋的關鍵點檢測很有效果。並且本文通過實驗表明了隨着感受野的增大,預測的准確率上升,如下圖:

    

  文中提出增大感受野有如下幾種方式:

  • 增大pool,但會損失較多信息從而減小了精度
  • 增大卷積核,同時會增加參數量
  • 增加卷積層,層數過多容易產生梯度消失等問題

4 - 參考資料

https://arxiv.org/abs/1602.00134

https://blog.csdn.net/cherry_yu08/article/details/80846146

https://blog.csdn.net/shenxiaolu1984/article/details/51094959

https://www.cnblogs.com/JillBlogs/p/9098989.html

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM