Transformer Tracking
2021-04-08 21:45:41
Paper: https://arxiv.org/pdf/2103.15436.pdf
Code: https://github.com/chenxin-dlut/TransT
如圖所示,本文提出了一種新的 matching 方式,也可以說是一種特征融合模式,即:利用 Transformer 模型對 template feature 和 search region 進行特征融合。然后再將融合后的特征進行多分枝任務的預測,即:在 Siamese 框架下進行 Regression 和 Classification。核心部分包含三個主要模塊:特征提取模塊,特征融合模塊,以及預測模塊。
特征提取模塊:利用修改后的 ResNet50 作為骨干網絡提取 target template 和 search region 的特征;
特征融合模塊:作者先用兩個 1*1 的卷積層進行降維操作,將 1024-D 的特征圖降維成 256-D。然后沿着空間維度進行 reshape,得到 d*HW 的特征向量的集合。這兩組特征分別輸入到特征融合模塊,即:ECA 和 CFA 模塊中。
預測頭網絡(Prediction Head Network):這里采用的是 anchor-free 的跟蹤分支,即:一個是 classification branch,一個是 regression branch,每一個分支均是 3層維度為 d 的感知層,以及ReLU 激活函數。
接下來,核心就是特征融合模塊的具體操作:
1. ECA(Ego-Context Augmentation) 和 CFA(Cross-Feature Augmentation Modules):
Multi-head Attention:
這里簡單介紹了 self-attention 的機制
其中,dk 是 key 的維度。
Ego-Context Augment (ECA):
如上圖所示,給定輸入 X,作者對這個 feature map 采用了 sine function 來產生位置編碼。然后將其和輸入 X 進行相加,最終 ECA 模塊可以總結為:
其中,Px 是空間位置編碼,XEC 是 ECA 的輸出。
Cross-Feature Augmentation (CFA) :
上述 ECA 是對單獨的 feature map 進行 attention 處理。作者這里也考慮了 template 和 search region 之間信息的融合,提出了 Cross-Feature Augmentation 模塊。類似 ECA,CFA中也引入了空間位置編碼。此外,FFN 模塊被用於增強模型的擬合能力。
因此,CFA機制可以總結為
Differences with the original Transformer:
作者引入的 cross-attention 操作使得 Transformer 模型更加適用於跟蹤的任務。
2. Experimental Results:
==