Deep High-Resolution Representation Learning for Human Pose Estimation
2019-08-30 22:05:59
Code: https://github.com/leoxiaobin/deep-high-resolution-net.pytorch
Related Works:
1. High-Resolution Representations for Labeling Pixels and Regions, Sun, K., Zhao, Y., Jiang, B., Cheng, T., Xiao, B., Liu, D., ... & Wang, J. (2019). arXiv preprint arXiv:1904.04514.
2. Deep High-Resolution Representation Learning for Visual Recognition. Wang, Jingdong, et al. arXiv preprint arXiv:1908.07919 (2019).
3. Simple baselines for human pose estimation and tracking. Xiao, Bin, Haiping Wu, and Yichen Wei. Proceedings of the European Conference on Computer Vision (ECCV). 2018.
1. Background and Motivation:
以前的網絡都是先降低分辨率,再提升分辨率 (encoder-decoder framework ?) ,如:Hourglass, simpleBaseline, dilated convolutions。而本文則提出一種分辨率網絡(High-resolution Net,HRNet)來在整個過程中保持分辨率不降低。作者從高分辨率開始,逐漸的添加 high-to-low resolution subnetworks 來構成多階的網絡,並行的連接多尺度的網絡。

如上圖所示,本文的方法對比傳統方法有如下兩點優勢:
1). 本文的方法可以實現並行的連接 high-to-low resolution subnetwork,而不是像前人方法用序列的方式實現 low-to-high 的過程,所以,其 feature map 更加准確;
2). 大部分現有的機制集成 low-level and high-level representation, 而本文則是重復的多尺度融合,來實現高分辨率的表達。

2. The Proposed Approach:
2.1. 序列化多分辨率子網絡:
現有的網絡是通過將 high-to-low resolution subnetworks 序列化的執行,其中每一個自網絡構成一個階段,是由一系列的 convolutions 組成,並且有下采樣層來降低分辨率。

2.2 並行的多分辨率子網絡:
我們從高分辨率子網絡作為第一個階段,逐漸的增加 high-to-low resolutions subnetworks 構成新的階段,並且將這些多分辨率子網絡連接。這樣,后面階段的子網絡就包含了前面階段的 resolution,還多了一個額外的 low-resolution 的。作者以 4 個並行的子網絡為例,來說明這個過程:

==
