論文閱讀: Siam FC


一、研究動機##

  • 一方面傳統算法設計的跟蹤模型過於簡單,另一方面深度學習方法很難達到實時效果然而現實場景中的應用對速度要求較高。
  • “shallow method”(HCFT)沒有很好地利用神經網絡端到端的思想,在線更新模型不能達到實時效果。
  • 作者提出了一種全連接孿生網絡,實現了端到端的訓練,它用第一幀的信息訓練一個普適的相似性學習模型用,然后用訓練好的孿生網絡從一個大的搜索圖片中選擇模板圖像(目標),速度超過了實時效果。另外,Siamese的網絡結構都是全連接層,並且用稠和有效的滑動窗口技術計算兩個特征(搜索區域和模板特征)的相關性。值得注意的是,作者用ImageNet Video中的視頻數據訓練模型,用OTB/VOT對算法進行測試,避免了訓練和測試數據來自同一個域。

二、算法原理##

基本思路:

  將第一幀圖像目標作為模板圖像\(z\) ,將后續個幀圖像作為搜索圖像\(x\),通過一個學習好的相似性對比函數\(f(z,x)\)\(x\)上找到和\(z\)最為相像的備選區域作為預測的目標位置。相似度對比函數\(f\)將會用一個標記好的數據集進行訓練。作者用深度網絡作為相似度對比函數\(f\),將網絡作為一種變換\(\varphi\),首先將這種變換分別應用到模板和搜索圖像上,產生模板和搜索區域的特征\(\varphi(z), \varphi(x)\),然后用另外一個相似度測量函數\(g\)將他們結合起來\(f(z,x)=g(\varphi(z), \varphi(x))\)

網絡結構:

avatar

  為了給出更精確的定義,給定\(L_{\tau}\)是一種轉換操作\(\left(L_{\tau} x\right)[u]=x[u-\tau]\),函數\(h\)作為全卷積網絡變換函數,\(k\)是全卷積網絡變換的比例因子,則\(h\left(L_{k \tau} x\right)=L_{\tau} h(x)\),表示的含義是:先對\(x\)進行有比例因子的轉換操作再進行全卷積操作等同於先對\(x\)進行全卷積操作再進行轉換操作。給定每個位置的偏置參數\(b \mathbb{1}\),相似度對比函數還可以表示為\(f(z, x)=\varphi(z) * \varphi(x)+b \mathbb{1}\),表示的含義是:模板區域\(z\)和搜索區域\(x\)經過相同的卷積操作\(\varphi()\)后,用\(*\)操作並加上一定的偏置\(b \mathbb{1}\)得到響應圖。

  在跟蹤過程中,搜索圖像是以上一幀目標為中心的,響應圖由特征圖進行互相關操作(等價於響應圖的內積)生成,響應圖最大的位置乘以網絡的比例因子才是目標的最終位置。另外,作者使用不同尺度的圖片作為一個mini-batch進行檢測。

  注意:SiamFC設計的網絡結構將原始圖像縮小了8倍,即\(k=8\),並且,該網絡沒有padding。

模型訓練過程###

  損失函數:作者用logistic loss\(\ell(y, v)=\log (1+\exp (-y v))\)計算損失,其中\(v\)是對一個樣本候選區的打分值,\(y\)是此樣本候選區的真實標簽\(y \in\{+1,-1\}\)。響應圖的損失被定義為響應圖中每個位置損失的平均值,即

\[L(y, v)=\frac{1}{|\mathcal{D}|} \sum_{u \in \mathcal{D}} \ell(y[u], v[u]) \]

最后,給定\(x\)\(z\)是樣本對,\(\theta\)是參數,\(f\)是對樣本對的打分,用SGD最小化如下損失函數來獲得最佳的跟蹤模型。

\[\underset{\theta}{\arg \min } \underset{\theta}{\mathbb{E}} L(y, f(z, x ; \theta)) \]

  訓練數據:作者用大規模搜索圖像訓練模型,訓練數據是由樣本對組成的,視頻中的第一幀圖像中的目標和該視頻中的其他相差不超過T幀的圖像組成了若干樣本對(目標圖像和后續幀都組成一個樣本對)。每個樣本對經過孿生網絡生成響應圖\(v[u]\)后,\(u \in \mathcal{D}\)(u表示響應圖中的每個位置),響應圖每個位置對應的標簽為\(y[u]\)\(y[u]\)的定義遵循如下規定,表示當響應圖中某位置\(u\)和響應圖中目標位置\(c\)的距離乘以比例因子\(k\)后小於\(R\)則為正樣本。

\[y[u]=\left\{\begin{array}{ll}{+1} & {\text { if } k\|u-c\| \leq R} \\ {-1} & {\text { otherwise }}\end{array}\right. \]

  數據處理:模板圖像大小是\(127 \times 127\),搜索區域圖像是\(255 \times 255\),給定目標尺寸\((w,h)\),目標周圍擴增\(p\),其中\(p=(w+h)/4\),對於模板圖像\(A=127^2\),利用尺度變換\(s\)使得新的區域面積等於模板圖像面積(\(s\)的變換方式是在原有尺寸不變的前提下填充原圖RGB各通道均值像素),在預訓練之前,將訓練數據組織好以便提高訓練速度:

\[s(w+2 p) \times s(h+2 p)=A \]

  訓練細節:模型初始化參數用高斯分布初始化,共迭代50次,每次迭代包含50000個樣本對,mini-batch為8,學習率每次迭代從\(10^(-2)\)\(10^(-5)\).

跟蹤過程###

  作者只在大約四倍於先前大小的區域內搜索對象,並且在得分圖中添加一個cos窗口來懲罰較大的位移。通過處理多個縮放版本的搜索圖像,可以實現對縮放空間的跟蹤。任何規模的變化都將受到懲罰,並對當前規模的更新進行阻尼。
結合時域信息約束;搜索目標在四倍目標區域;余弦窗口加在打分映射懲罰大的偏移。多尺度跟蹤,增強尺度估計的准確性。
(we only search for the object within a region of approximately four times its previous size, and a
cosine window is added to the score map to penalize large displacements. Tracking through scale space is achieved by processing several scaled versions of the search image. Any change in scale is penalized and updates of the current scale are damped.)

  在跟蹤過程中,初始幀目標的特征圖只計算一次,然后它用來和后續幀的特征圖進行比較,得到的響應圖(得分圖)。作者利用雙三次插值將\(17 \times 17\)的矩陣轉換為\(272 \times 272\)的矩陣,從而定位目標區域。另外,針對搜索圖像,還用了5種尺度\(1.025^(\{-2,-1,0,1,2\})\),這些尺度采用了以0.35為步長的線性函數作為抑制。

后期看完代碼會補充更多跟蹤方面的詳細信息。

三、實驗結果##

  實驗設備是NVIDIA GeForce GTX Titan X顯卡和Intel Core i7-4790K 4.0GHz處理器。共做了兩種不同的算法版本,一種是5種尺度SiamFC,另一種是3種尺度SiamFC-3s,分別在OTB2013和VOT數據集上進行了測試。

OTB2013###

  在測試過程中,作者將25%對圖像樣本轉化為灰度圖像,其余不變,效果如下。可以看到SiamFC和SiamFC-3s的效果都居於前兩名。其中單次成功率OPE可達0.62,時間魯棒性TRE(將不同幀打亂)可達0.612,而空間魯棒性SRE(從幀內不同框位置開始)可達0.564。

VOT###

  VOT-2014結果:除了和VOT2014的前十名的跟蹤算法相比,還另外加入了Staple和GOTURN。算法主要兩個評價指標:accuracy和robustness,前者是計算平均IOU,后者是計算總是失敗幀數。下圖顯示了Accuracy-Robustness plot(按照accuracy和robustness分別進行排名,再進行平均)。

  VOT-2015結果:下圖顯示了VOT-2015排名前41名的跟蹤算法,另外還用表格顯示出了排名前15的跟蹤算法的更加細節的比較(包括速度)

  VOT-2016結果:作者在寫這篇文章的時候,2016的官方結果還沒出,作者自己測試的結果是SiamFc和SiamFc-3s的預測重疊率分別是0.3876和0.4051。

  另外, 作者后面還通過不斷改變數據集大小來觀察測試效果的不同,發現數據集越大,效果越好。

四、相關鏈接##

原文鏈接:原文鏈接
代碼鏈接:代碼鏈接
算法相關鏈接:Xavier網絡參數初始化

版權聲明:本文為博主原創文章,未經博主允許不得轉載。

出處:https://www.cnblogs.com/shyern/


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM