Transformer Tracking

本文轉載自查看原文 2021-04-08 21:47 458 Transformer/ Visual Tracking

Transformer Tracking

2021-04-08 21:45:41

Paper: https://arxiv.org/pdf/2103.15436.pdf

Code: https://github.com/chenxin-dlut/TransT

　　如圖所示，本文提出了一種新的 matching 方式，也可以說是一種特征融合模式，即：利用 Transformer 模型對 template feature 和 search region 進行特征融合。然后再將融合后的特征進行多分枝任務的預測，即：在 Siamese 框架下進行 Regression 和 Classification。核心部分包含三個主要模塊：特征提取模塊，特征融合模塊，以及預測模塊。

　　特征提取模塊：利用修改后的 ResNet50 作為骨干網絡提取 target template 和 search region 的特征；

　　特征融合模塊：作者先用兩個 1*1 的卷積層進行降維操作，將 1024-D 的特征圖降維成 256-D。然后沿着空間維度進行 reshape，得到 d*HW 的特征向量的集合。這兩組特征分別輸入到特征融合模塊，即：ECA 和 CFA 模塊中。

　　預測頭網絡（Prediction Head Network）：這里采用的是 anchor-free 的跟蹤分支，即：一個是 classification branch，一個是 regression branch，每一個分支均是 3層維度為 d 的感知層，以及ReLU 激活函數。

　　接下來，核心就是特征融合模塊的具體操作：

　　1. ECA（Ego-Context Augmentation）和 CFA（Cross-Feature Augmentation Modules）:

　　Multi-head Attention:

　　這里簡單介紹了 self-attention 的機制

　　其中，dk 是 key 的維度。

　　Ego-Context Augment (ECA):

　　如上圖所示，給定輸入 X，作者對這個 feature map 采用了 sine function 來產生位置編碼。然后將其和輸入 X 進行相加，最終 ECA 模塊可以總結為：

　　其中，Px 是空間位置編碼，XEC 是 ECA 的輸出。

　　Cross-Feature Augmentation (CFA) :

　　上述 ECA 是對單獨的 feature map 進行 attention 處理。作者這里也考慮了 template 和 search region 之間信息的融合，提出了 Cross-Feature Augmentation 模塊。類似 ECA，CFA中也引入了空間位置編碼。此外，FFN 模塊被用於增強模型的擬合能力。

　　因此，CFA機制可以總結為

　　Differences with the original Transformer:

　　作者引入的 cross-attention 操作使得 Transformer 模型更加適用於跟蹤的任務。

2. Experimental Results：

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 TransTrack: Multiple-Object Tracking with Transformer Transformer Meets Tracker: Exploiting Temporal Context for Robust Visual Tracking Transformer Transformer transformer Transformer transformer Transformer transformer Transformer