SiamFC++: Towards Robust and Accurate Visual Tracking with Target Estimation Guidelines
2020-06-18 16:37:32
Paper: https://arxiv.org/pdf/1911.06188v4.pdf
Code: https://github.com/MegviiDetection/video_analyst
1. Background and Motivation:
作者提出如下幾個方面的引導,來設計新的孿生網絡進行跟蹤:
G1. Decomposition of classification and state estimation.
G2. Non-ambiguous scoring.
G3. Prior knowledge-free.
G4. Estimation quality assessment.
2. The Proposed Method:
2.1. Siamese-based Feature Extraction and Matching:
這里作者采用了 Siamese network 來分別提取 template 和 search image 的特征,並且計算其相似性。用兩個分支,classification 和 regression branch 來得到兩組特征。
2.2. Application of Design Guidelines in Head Network:
本文服從 G1,設計了兩個分支,一個是 regression;一個是 classification。Classification 分支是用於大致定位,而 Regression 分支則是為了得到更加准確地 BBox 位置信息。這部分網絡的設計有點借鑒 FCOS 物體檢測方法。
特征圖上每一個位置 (x, y) 都對應了一個圖像區域。服從 G2,作者直接分類對應的 image patch 和 回歸目標矩形框。換句話說,本文所提出的 SiamFC++ 可以直接將位置看做是訓練樣本。本文方法直接拓展了 anchor 的約束,屬於 anchor-free 的方法。所以,本文的方法並沒有利用目標數據分布的先驗信息,例如 scale/ratio。這樣就符合准則 G3了。
作者根據前人的工作得出如下的結論:分類的得分,並沒有和定位的准確度很好地對應。作者采用了這種中心先驗的做法,並且服從 G4,添加了一個簡單但是有效的 quality assessment branch 來進行跟蹤效果評估。該輸出可以去預測先驗空間得分(the Prior Spatial Score, PSS),定義如下:
注意到,這里的 PSS 並不是質量估計唯一的選擇。另外,作者也預測了得到的 BBox 和真值的 IoU:
2.3. Training Objective:
3. Experiments: