人體姿態估計之MSPN


首先先回答一下為什么multi-stage非常適合姿態估計這個任務呢?原因是:第一,對人體關節的預測需要給出准確的坐標值,這本身就需要有一個比較高的resolution; 第二, 對一些難度比較高的關節預測任務,不能僅僅去看關節點本身的feature,還需要結合整個圖像的上下文來做出判斷,而要獲取上下文的信息就必須減小resolution( 有人可能說,增大卷積的kernel size 可以在不損失分辨率的情況下增大感受野,但是這種做法的效率很低,而且會大大增加參數量)。前面說的第一點和第二點構成了一對矛盾, 而怎么解決這一對矛盾呢?就是用 multi-stage。比如在stage 1的 down-sampling的時候,是產生低分辨率feature的過程,然后在up-sampling的過程中,產生heatmap,注意:由於不同關節點的heatmap是同時生成的,所以生成關節點a的heatmap的過程中沒法參照關節點b的位置(對於關節點a而言,關節點就是一個context信息),那么如何才能利用context信息呢? 只有再搞一個stage,把前一個stage中學到的上下文信息利用起來。

上面是從圖像context信息的角度來說明為什么multi-stage是必要的,其實這個問題還可以從另外一個角度來解讀:那就是第一段中講到的人體姿態估計的矛盾決定了好的解決方案必定是high resolution feature 和 low resolution feature 相互融合的,那么我們看看如果只有一個stage的話,可以做到很好的融和嗎? 不能。因為在down-sampling之前,low-resolution的feature還沒有產生,也就是說這時的神經網絡輸入不含有low-resolution feature。 只有經過了第一個stage后,high 和 low resolution 的feature才算合到一起,這時再做down sampling,信息就比較全面了。

注意: multi-stage只是解決前面說的矛盾的一種手段,但不是唯一手段。解決問題的本質就是 high resolution feature 和 low resolution feature 的融和問題, 所以我們會看到2019年的HRnet沒有用multi-stage,但是他的網絡架構也同樣解決了高低分辨率的融和問題。

下面來說說對MSPN的理解:

  1. 首先表達一個我的疑惑:MSPN的論文中的網絡架構和曠視給出的開源代碼似乎不太相符。在stage 2 中, 在曠視的github上給出的代碼中, layer 1的輸入中並沒有stage 1 的兩個skip,這兩個skip是在layer 1 的輸出中才加上去的,也就是說每一個skip都在與layer的輸出相加,而不是與輸入相加。但是論文中給出的圖片中,其畫法非常有歧義,讓人覺得skip是加在輸入上而不是輸出上。

  2. 下面重點說說MSPN的網絡架構為什么能取得當時state-of-the-art的效果,引用論文原文中的話說就是feature aggregation做得很好,之前好像沒人在姿態識別上提出跨stage的特征融和。實際上,你去看看hourglass的網絡,第一個stage的輸出作為第二個stage的輸入,這是一種stage級別的融和;而MSPN則是同一分辨率的feature級別的特征融和,是深入到stage內部的,所以融和的效果更好。 順便提一句,你可以用HRnet 論文中的網絡結構的樣式去畫一下hourglass 和 MSPN 的網絡結構,就知道他們三者在特征融和上的區別了。

  3. 最后再說下 損失函數的計算,MSPN中作者是把所有stage的所有resolution的prediction的偏差都放到所示函數里了。但是這里面有兩個變化: 一個是在stage 1 中,目標heatmap的生成采用的是大的高斯核,也就是說生成的heatmap“比較模糊”, 而在stage 2中則采用了比較精確的heatmap。這個設計原則其實也體現了由粗到精的優化原則。 第二個變化是,在每一個stage的最高的resolution中產生的prediction只取損失值最大的k個放到損失函數中, 即所謂的OHKM(online hard keypoint mining)。這個OHKM是每一輪迭代的時候就進行的。

最后說一下,MSPN的論文中給出的網絡結構圖是很簡略的,很多細節都沒有表達地特別清楚,然后我自己用畫了一個比較詳細的圖,能夠幫助大家更好地理解MSPN的結構


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM