最近正在閱讀CVPR2019的論文Deep High-Resolution Representation Learning for Human Pose Estimation。
無奈看論文中的Network instantiation部分太過簡略,在網上也沒有搜索到一個非常清晰的圖示。
我閱讀這篇論文的時候,覺得自己如果無法完全清晰地知曉網絡結構,就始終有一種浮於表面的感覺,相當於只是學習了一個本文的idea。因此我先去學習了ResNet,再一邊學pytorch一邊閱讀了https://github.com/leoxiaobin/deep-high-resolution-net.pytorch的開源代碼(主要是lib/models/pose_resnet.py,網絡參數參考的是lib/config/models.py),才算是有了一個比較清晰的認知。
我自己將網絡結構手畫了下來,首先是整體結構:
其次是對每一模塊的詳細圖示:
畫完之后,我也和High-Resolution Representations for Labeling Pixels and Regions這篇論文中的Figure 1比對了一下,確認是對的上的。