TransPose: Towards Explainable Human Pose Estimation by Transformer
2021-01-05 21:06:22
Paper: https://arxiv.org/pdf/2012.14214.pdf
Code: https://github.com/yangsenius/TransPose
1. Background and Motivation:
本文將 transformer 和 pose estimation 結合在一起,提出 TransPose。核心思想是增強了可解釋性。大致的方法如下:
可以看到,是 CNN + transformer 的結構。並且每一個 layer 較好的反映了不同物體之間以及不同 part 的之間的依賴關系。本文的另外的核心觀點是,CNN 較好的關注 low-level feature,但是感受野受限,而 Transformer 不存在這種問題。
2. Approach Detail:
該網絡主要由三個部分構成:
1). Backbone network: 本文采用 resnet-50 和 HRNet 作為骨干網絡提取 low-level feature;
2). Transformer Encoder:
將 CNN 輸出的 feature map 進行 reshape,得到多個向量特征。然后輸入到 Transformer 模型中。
3). Prediction Head:
首先對 transformer 的輸出進行 reshape,得到 C*H*W 的 feature map。然后用 1*1 或者 4*4 conv layers 對得到的 feature vector 進行變換。
3. Experiment: