Distribution-Aware Coordinate Representation for Human Pose Estimation


Distribution-Aware Coordinate Representation for Human Pose Estimation

一. 論文簡介

設計gaussian heatmap的后處理,獲得更精確的位置坐標

主要做的貢獻如下(可能之前有人已提出):

  1. encode使用non-bias生成heatmap
  2. decode使用gaussian函數梯度求取

二. 模塊詳解

2.1 整體結構介紹

論文思想比較簡單,整體進行概括

  • 編碼部分不進行說明,現在都是這樣做的。
  • 解碼部分是此論文核心
  1. 最原始的做法是直接argmax即可,以下是部分論文進行改進的,\(m\) 是最大值點,\(s\) 是第二大值點,然后進行加權得到最終位置 \(p\)
  1. 改進后看下圖

生成label的時候我們直接把每個點強制進行高斯分布形成heatmap,如果\(center=(15.6,15.6)\),那么生成的圖\(center=(16,16)=0.999\)

直接進行找最大值的后果(理想情況),獲得坐標\(center=(16,16)\)

如何進行擬合到原始坐標?

假設預測的圖符合高斯分布(理想情況),那么最大值點梯度為0,我們可以使用這兩個條件進行反向求解,其中 \(\sigma\) 是已知的(生成label相同),直接聚類擬合即可。

這種方式計算量太大,不利於后處理?

先找到當前的最大值坐標,假設為 \(m\) 點,設實際的中心點為 \(u\) ,將二維高斯按照泰勒展開,得到下下圖公式\((7)\)\(u\) 點導數為0得到公式\((6)\),那么我們可以將公式\((7)\)求導數化解為公式\((9)\) ,其中公式\((8)\)為數字圖像的二階倒數(hessian矩陣)。

還有一個值得注意的地方,上面公式都是理想情況,如果不理想呢?

先將預測的heatmap進行高斯濾波,從下圖\((a)\)轉化為\((b)\),方式就是公式\((10)\),最后進行一個歸一化,其中max為直接輸出heatmap的最大值,也就是公式\((11)\)所示。


三. 缺點

  • 假設條件是凸函數,很多情況矩陣不是正定的


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM