論文筆記：Siamese Cascaded Region Proposal Networks for Real-Time Visual Tracking

本文轉載自查看原文 2019-03-20 16:51 1553 論文閱讀/ 目標檢測與跟蹤/ Visual Tracking

Siamese Cascaded Region Proposal Networks for Real-Time Visual Tracking

2019-03-20 16:45:23

Paper：https://arxiv.org/pdf/1812.06148.pdf

Project Page: http://www.dabi.temple.edu/~hbling/code/CRPN/crpn.htm

Code: https://bitbucket.org/hengfan/crpn/src/master/ (Test Code Only) or directly from Google drive: https://drive.google.com/file/d/1rhSYcQcQtHocXjiOTZ13vZedC61kbIVC/view

背景與動機：

本文提出一種級聯的 RPN 網絡結合到 Siamese RPN 網絡中，然后取得了更好的跟蹤效果。本文的動機如下：
1). 正負樣本的比例，不一致，導致 Siamese Network 的訓練不夠有效；大部分的負樣本都是簡單樣本，對最終的結果貢獻很小，所以，在出現相似物體的時候，經常會出現跟蹤混淆；

2). Low-level spatial features 並沒有充分的被探索；

3). One-stage Siamese RPN 采用單個回歸器進行物體的定位，但是實際上並沒有很好的處理跟蹤中物體的尺寸變換的問題。利用預先定義好的 Coarse anchor Box 不能很好的進行精確的定位；

於是，根據上述動機，作者引入多級的 RPN 網絡，來解決定位問題；同時選擇 hard negative samples 來改善網絡的魯棒性。此外，作者還引入了多層特征的融合，得到了更好的特征表達。

網絡結構：

1. Siamese-RPN 的簡介：

　　詳見其原始 paper：High performance visual tracking with siamese region proposal network

2. Cascaded RPN:

前人的方法大部分都忽略了 class imbalance 的問題，導致在出現相似性物體的時候，效果不佳。此外，他們也僅用 high-level semantic features 來進行跟蹤，而很少考慮 multi-level feature。為了解決上述這兩個問題，本文提出多階段的跟蹤方法，細節如下：

對於每一個階段的 RPN，其利用 FTB 模塊來融合來自第 l 個 convolutional layer 的特征以及 high-level feature，融合后的特征可以用下面的公式進行表達：

其中 FTB 代表如下圖所示的多特征融合模塊。主要是對較低分辨率的圖像利用 Deconvlutional layer 進行升分辨率處理，得到的特征卷積后，與另外一支進行元素集相加（element-wise summarize）得到最終的結果，細節見圖 6。

對於，RPN-1 來說，

所以，stage l 中每一個 anchor 的分類得分和回歸的偏執，計算如下：

我們用 A_l 表示在階段 l 的 anchor set。根據分類的得分，我們可以過濾出該集合中的樣本，當其 negative confidence 大於預先設定的閾值時。然后，剩下的那些樣本就構成了新的 anchor 集合 A_l+1，並且用於訓練 RPN_l+1。此外，為了提供更好的初始化，我們優化了 A_l+1 中 anchor 的 center location 以及 size，所以，產生了更加准確的定位。作者也提供了一個案例，來表明 BBox 的准確性提升。