TransPose: Towards Explainable Human Pose Estimation by Transformer


TransPose: Towards Explainable Human Pose Estimation by Transformer

2021-01-05 21:06:22

 

Paperhttps://arxiv.org/pdf/2012.14214.pdf

Codehttps://github.com/yangsenius/TransPose

 

1. Background and Motivation

本文將 transformer 和 pose estimation 結合在一起,提出 TransPose。核心思想是增強了可解釋性。大致的方法如下:

 

 

 

可以看到,是 CNN + transformer 的結構。並且每一個 layer 較好的反映了不同物體之間以及不同 part 的之間的依賴關系。本文的另外的核心觀點是,CNN 較好的關注 low-level feature,但是感受野受限,而 Transformer 不存在這種問題。

 

 

 

2. Approach Detail

該網絡主要由三個部分構成:

1). Backbone network: 本文采用 resnet-50 和 HRNet 作為骨干網絡提取 low-level feature; 

2). Transformer Encoder

    將 CNN 輸出的 feature map 進行 reshape,得到多個向量特征。然后輸入到 Transformer 模型中。

3). Prediction Head:  

    首先對 transformer 的輸出進行 reshape,得到 C*H*W 的 feature map。然后用 1*1 或者 4*4  conv layers 對得到的 feature vector 進行變換。

 

3. Experiment

 

 

 

 

  


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM