HRNET網絡結構簡單分析


hrnet相關的兩篇文章
CVPR2019   Deep High-Resolution Representation Learning for Human Pose Estimation
 
 
 
        提出了一種新的架構,即高分辨率網絡(HRNet),它能夠在整個過程中維護高分辨率的表示。我們從高分辨率子網作為第一階段始,逐步增加高分辨率到低分辨率的子網(gradually add high-to-low resolution subnetworks),形成更多的階段,並將多分辨率子網並行連接。在整個過程中,我們通過在並行的多分辨率子網絡上反復交換信息來進行多尺度的重復融合,使得每一個高分辨率到低分辨率的表征都從其他並行表示中反復接收信息,從而得到豐富的高分辨率表征.
 
網絡示意圖如下:

 

 

本文的貢獻點:
1)我們的方法是,平行地連接從高到底分辨率的子網絡,與目前絕大多數串聯連接的網絡不同。因此,我們的網絡可以維持高分辨率特征,而不是通過一個從低到高的操作來恢復出一個高分辨率特征。 因此,預測的熱圖(heatmap)在空間上可能更精確。
2) 大多數現有的融合方案都是聚合低層(low-level)和高層(high-level)的表示( representations)。而本文提出的網絡,使用重復的多尺度融合, 利用相同深度和相似級別的低分辨率表示來提高高分辨率表示。
(i) Our approach connects high-to-low resolution subnetworks in parallel rather than in series as done in most existing solutions. Thus, our approach is able to maintain the high resolution instead of recovering the resolution through a low-to-high process, and accordingly the predicted heatmap is potentially spatially more precise. 
(ii)Most existing fusion schemes aggregate low-level and highlevel representations. Instead, we perform repeated multiscale fusions to boost the high-resolution representations with the help of the low-resolution representations of the same depth and similar level, and vice versa, resulting in that high-resolution representations are also rich for pose estimation. Consequently, our predicted heatmap is potentially more accurate.
 
 
網絡結構如下圖所示。

 

 高分辨率與低分辨率的融合方式如下:

 

 

高分辨需要先用一個或者若干個連續的stride=2的3x3卷積(2個連續的stride=2的3x3卷積為 4倍的 downsampling)降低到與低分辨率相同,然后使用element wise sum,對不同分辨率進行求和。
低分辨率要先用 一個上采樣(Upsample,使用最近鄰插值,使用2倍或者4倍的上采樣率)的方式提升到與高分辨相同,然后使用1x1卷積使得通道數與高分辨一致,然后再進行sum操作。
 
最終不同分辨率的輸出融合方式如下圖:

 

 

 
 
最后在coco 人形關鍵點檢測的結果如下:

 

 

附錄:
 
各種網絡的不同分辨率的組合融合方式

High-to-low and low-to-high.

      high-to-low process的目標是生成低分辨率和高分辨率的表示,low-to-high process的目標是生成高分辨率的表示[4,11,23,72,40,62]。這兩個過程可能會重復多次,以提高性能[77,40,14]。
 
      具有代表性的網絡設計模式包括:
 
      (i)Symmetric high-to-low and low-to-high processes。Hourglass及其后續論文[40,14,77,31]將low-to-high proces設計為high-to-low process的鏡子。
 
      (ii)Heavy high-to-low and light low-to-high。high-to-low process是基於ImageNet分類網絡,如[11,72]中使用的ResNet,low-to-high process是簡單的幾個雙線性上采樣[11]或轉置卷積[72]層。
 
      (iii)Combination with dilated convolutions。在[27,51,35]中,ResNet或VGGNet在最后兩個階段都采用了擴張性卷積來消除空間分辨率的損失,然后采用由light lowto-high process來進一步提高分辨率,避免了僅使用dilated convolutions的昂貴的計算成本[11,27,51]。圖2描述了四種具有代表性的姿態估計網絡。

 

 

Multi-scale fusion.

最直接的方法是將多分辨率圖像分別送入多個網絡,並聚合輸出響應映射[64]。Hourglass[40]及其擴展[77,31]通過跳過連接,將high-to-low process中的低級別特征逐步組合為low-to-high process中的相同分辨率的高級別特性。在cascaded pyramid network[11]中,globalnet將high-to-low process中的低到高級別特征low-to-high level feature逐步組合到low-to-high process中,refinenet將通過卷積處理的低到高特征進行組合。我們的方法重復多尺度融合,部分靈感來自深度融合及其擴展[67,73,59,80,82]。
 
 
 
 
 
 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM