Transformer Tracking


Transformer Tracking

2021-04-08 21:45:41

Paperhttps://arxiv.org/pdf/2103.15436.pdf 

Codehttps://github.com/chenxin-dlut/TransT 

 

  如圖所示,本文提出了一種新的 matching 方式,也可以說是一種特征融合模式,即:利用 Transformer 模型對 template feature 和 search region 進行特征融合。然后再將融合后的特征進行多分枝任務的預測,即:在 Siamese 框架下進行 Regression 和 Classification。核心部分包含三個主要模塊:特征提取模塊,特征融合模塊,以及預測模塊。

  

 

  特征提取模塊:利用修改后的 ResNet50 作為骨干網絡提取 target  template 和 search region 的特征;

  特征融合模塊:作者先用兩個 1*1 的卷積層進行降維操作,將 1024-D 的特征圖降維成 256-D。然后沿着空間維度進行 reshape,得到 d*HW 的特征向量的集合。這兩組特征分別輸入到特征融合模塊,即:ECA 和 CFA 模塊中。

  預測頭網絡(Prediction Head Network):這里采用的是  anchor-free 的跟蹤分支,即:一個是 classification branch,一個是 regression branch,每一個分支均是 3層維度為 d 的感知層,以及ReLU 激活函數。

 

  接下來,核心就是特征融合模塊的具體操作:

  1. ECA(Ego-Context Augmentation) 和 CFA(Cross-Feature Augmentation Modules)

  Multi-head Attention: 

  這里簡單介紹了 self-attention 的機制  

   

 

 

  其中,dk 是 key 的維度。

   

 

 

  Ego-Context Augment (ECA)

  

 

  如上圖所示,給定輸入 X,作者對這個 feature map 采用了  sine function 來產生位置編碼。然后將其和輸入 X 進行相加,最終 ECA 模塊可以總結為:

   

 

 

  其中,Px 是空間位置編碼,XEC 是 ECA 的輸出。

  

  Cross-Feature Augmentation (CFA) 

  上述 ECA 是對單獨的 feature map 進行 attention 處理。作者這里也考慮了 template 和 search region 之間信息的融合,提出了 Cross-Feature Augmentation 模塊。類似 ECA,CFA中也引入了空間位置編碼。此外,FFN 模塊被用於增強模型的擬合能力。

  

 

  因此,CFA機制可以總結為

   

 

 

  Differences with the original Transformer

  作者引入的 cross-attention 操作使得 Transformer 模型更加適用於跟蹤的任務。

   

 

 

  

2. Experimental Results

 

 

 

 

 

 

 

 

  

== 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM