Distribution-Aware Coordinate Representation for Human Pose Estimation

本文轉載自查看原文 2020-09-02 20:14 443 姿態估計

Distribution-Aware Coordinate Representation for Human Pose Estimation

一. 論文簡介

設計gaussian heatmap的后處理，獲得更精確的位置坐標

主要做的貢獻如下（可能之前有人已提出）：

encode使用non-bias生成heatmap

decode使用gaussian函數梯度求取

二. 模塊詳解

2.1 整體結構介紹

論文思想比較簡單，整體進行概括

編碼部分不進行說明，現在都是這樣做的。
解碼部分是此論文核心

最原始的做法是直接argmax即可，以下是部分論文進行改進的，\(m\) 是最大值點，\(s\) 是第二大值點，然后進行加權得到最終位置 \(p\)

改進后看下圖

生成label的時候我們直接把每個點強制進行高斯分布形成heatmap，如果\(center=(15.6,15.6)\)，那么生成的圖\(center=(16,16)=0.999\)

直接進行找最大值的后果（理想情況），獲得坐標\(center=(16,16)\)

如何進行擬合到原始坐標？

假設預測的圖符合高斯分布（理想情況），那么最大值點梯度為0，我們可以使用這兩個條件進行反向求解，其中 \(\sigma\) 是已知的（生成label相同），直接聚類擬合即可。

這種方式計算量太大，不利於后處理？

先找到當前的最大值坐標，假設為 \(m\) 點，設實際的中心點為 \(u\) ，將二維高斯按照泰勒展開，得到下下圖公式\((7)\)，\(u\) 點導數為0得到公式\((6)\)，那么我們可以將公式\((7)\)求導數化解為公式\((9)\) ，其中公式\((8)\)為數字圖像的二階倒數（hessian矩陣）。

還有一個值得注意的地方，上面公式都是理想情況，如果不理想呢？

先將預測的heatmap進行高斯濾波，從下圖\((a)\)轉化為\((b)\)，方式就是公式\((10)\)，最后進行一個歸一化，其中max為直接輸出heatmap的最大值，也就是公式\((11)\)所示。

三. 缺點

假設條件是凸函數，很多情況矩陣不是正定的

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。