『關鍵點檢測』CPN:Cascaded Pyramid Network for Multi-Person Pose Estimation


論文連接

網絡簡介

face++2017年coco keypoint benchmark 數據集冠軍的文章,發表於CVPR201

1  提出了一種金字塔型的串接模型,即CPN(cascaded pyramid network),這個模型能夠同時兼顧人體關節點的局部信息以及全局信息,結果取得了不錯的效果;

2   使用了在線難例挖掘(online hard keypoints mining)的技術,這對於人體姿態估計任務中一些存在遮擋的“hard”的關鍵點的預測有所幫助;

3   測試階段考量了soft-NMS和傳統的hard-NMS(非極大值抑制)在human detection階段產生的影響,結論是soft-NMS對於最后的結果是有所幫助的。

本算發聚焦點在於處理多人姿態估計所面臨的挑戰:關鍵點遮擋,關鍵點不可見,復雜背景等——就是優化對於難以檢測的點的預測,即着重於處理 “hard” 關鍵點。思路就是detector先定位bbox,然后使用CPN檢測關鍵點,其中原作者使用的是FPN進行bbox定位(下圖解釋了FPN的優越性),並應用了ROIAlign。

CPN本體由兩部分組成:GlobalNet和RefineNet,流程如下圖所示,GlobalNet對關鍵點進行粗提取,RefineNet精細加工難以識別的網絡(RefineNet對不同層信息進行了融合,可以更好的綜合特征定位關鍵點),首先對於可以看見的easy 關鍵點直接預測得到,對於不可見的關鍵點,使用增大感受野來獲得關鍵點位置,對於還未檢測出的點,使用上下文context進行預測。。

GlobalNet 采用類似於FPN的特征金字塔結構,並在每個elem-sum前添加了1x 卷積,負責網絡所有關鍵點的檢測,重點是對比較容易檢測的眼睛、胳膊等部位的關鍵點。

RefineNet基於GlobalNet生成的特征金字塔,其鏈接了所有層的金字塔特征用於定位“hard”關鍵點,GolbalNet對身體部位的那些遮擋,看不見,或者有復雜背景的關鍵點預測誤差較大,RefineNet則專門修正這些點。主要還是基於shortcut的思想,在該階段的訓練中,還使用了類似OHEM的online hard keypoints mining難例挖掘策略。

下圖表示的更明顯,眼睛等關鍵點GlobalNet 直接輸出結果,其他關鍵點使用添加了RefineNet 的組合網絡輸出結果:

實驗要點

(1)數據增強,提升0.4map

訓練數據的處理上使用了隨機翻轉,(-45度,45度)的隨機旋轉,(0,7,1.35)的隨機尺度變換

(2)大batch的訓練,主要針對檢測框架,提升0.4-0.7map

(3)在行人檢測框架中使用soft NMS取代hard NMS,提升0.3map

(4)隨着檢測map的提高,關鍵點的map提升非常有限

(5)online hard keypoints mining
在coco 數據集中有17個關鍵點需要預測,GolbalNet預測所有的17個點,並計算所有17個點的loss,RefineNet也預測所有的17個點,但是只有最難的8個點的loss 貢獻給總loss。作者稱這為OHEM。

(6)多模型融合集成,提升1.1-1.5map在coco minval數據集上


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM