Distribution-Aware Coordinate Representation for Human Pose Estimation
一. 論文簡介
設計gaussian heatmap的后處理,獲得更精確的位置坐標
主要做的貢獻如下(可能之前有人已提出):
- encode使用non-bias生成heatmap
- decode使用gaussian函數梯度求取

二. 模塊詳解
2.1 整體結構介紹
論文思想比較簡單,整體進行概括
- 編碼部分不進行說明,現在都是這樣做的。
- 解碼部分是此論文核心
- 最原始的做法是直接argmax即可,以下是部分論文進行改進的,\(m\) 是最大值點,\(s\) 是第二大值點,然后進行加權得到最終位置 \(p\)

- 改進后看下圖
生成label的時候我們直接把每個點強制進行高斯分布形成heatmap,如果\(center=(15.6,15.6)\),那么生成的圖\(center=(16,16)=0.999\)
直接進行找最大值的后果(理想情況),獲得坐標\(center=(16,16)\)
如何進行擬合到原始坐標?
假設預測的圖符合高斯分布(理想情況),那么最大值點梯度為0,我們可以使用這兩個條件進行反向求解,其中 \(\sigma\) 是已知的(生成label相同),直接聚類擬合即可。
這種方式計算量太大,不利於后處理?
先找到當前的最大值坐標,假設為 \(m\) 點,設實際的中心點為 \(u\) ,將二維高斯按照泰勒展開,得到下下圖公式\((7)\),\(u\) 點導數為0得到公式\((6)\),那么我們可以將公式\((7)\)求導數化解為公式\((9)\) ,其中公式\((8)\)為數字圖像的二階倒數(hessian矩陣)。


還有一個值得注意的地方,上面公式都是理想情況,如果不理想呢?
先將預測的heatmap進行高斯濾波,從下圖\((a)\)轉化為\((b)\),方式就是公式\((10)\),最后進行一個歸一化,其中max為直接輸出heatmap的最大值,也就是公式\((11)\)所示。


三. 缺點
- 假設條件是凸函數,很多情況矩陣不是正定的