相關濾波的歷史及發展

本文轉載自查看原文 2020-04-28 20:02 1725

1、相關濾波
MOOSE(ICCV 2010)是目標跟蹤領域第一篇相關濾波算法，采用單通道灰度特征，在訓練和檢測時都沒有加padding，速度：615FPS，第一次顯示了相關濾波的潛力。
CSK（與KCF/DCF同一作者）在MOSSE的基礎上擴展了密集采樣(加padding)和kernel-trick，速度：362FPS。
KCF/DCF在CSK基礎上擴展了多道通的HOG特征，速度：KCF–172FPS，DCF–292FPS。
CN（Martin Danelljan大神–林雪平大學）在CSK的基礎上擴展了多通道顏色的Color Names，速度：152FPS。

1）MOSSE
相關濾波的跟蹤算法始於2010年David SBolme提出的MOSSE方法，其方法利用了信號處理中的相關性，通過提取目標特征來訓練相關濾波器，對下一幀的輸入圖像進行濾波，不難發現，當兩個信號越相似，即后一幀中圖像的某個位置的目標與前一幀用於訓練的特征越相似，在該位置濾波器所計算得到的相關值越高，相關性計算如下圖，g為計算的相關值，f為輸入圖像，h為濾波器模板。

作者在文中提及為了減少計算量，加快相應，通過快速傅里葉變化（FFT）將卷積操作變成了點乘操作。那剩下的問題在於怎么在每一幀之后更新相關濾波器呢？
由於考慮到了外觀變化等情況，並不單能從前一幀圖像去考慮相關濾波器，而需要同時考慮前面的多個圖像，相加最小。

求導得：

考慮光照等，作者也加入了權值濾波計算：

MOOSE的工作流程：
1、先手動或條件給定第一幀目標區域，提取特征，訓練相關濾波器。
2、對下一幀輸入圖像裁剪下預測區域，進行特征提取，做FFT運算，與相關濾波器相乘后將結果做IFFT運算，得到輸出的相應點，其中最大響應點為該幀目標的位置。
3、將該幀的目標區域加入訓練樣本中，對相關濾波器進行更新。
4、重復步驟2、3，即可實現目標跟蹤。

2）CSK
CSK在MOSSE的基礎上擴展了密集采樣(加padding)和kernel-trick。密集采樣通過循環矩陣似的圖片向量移位，在不增加過多內存的基礎上增加樣本數。而用核技巧可以在低維空間完成高維空間的計算，避免維度災難。
CSK用一個線性分類器來求解相關濾波。

與之前的方法的最大不同是加入了正則項，為了防止求得的濾波器過擬合。那如何求解呢？CSK算法使用核技巧是為了提高在高維特征空間中分類樣本的速度。

建議目標函數，求導，計算最小值，可以得到：

循環矩陣和稠密采樣都是為了求濾波器w，換言之就是為了求α，理想響應y是已知的，所以求出K即可。
稠密采樣是通過構建循環矩陣實現稠密采樣，x為輸入圖像，為一個nx1的向量，P表示循環移位操作，每次移動一個元素。

第一行為實際采集的目標特征，其他行表示周期性地把最后的矢量依次往前移產生的虛擬目標特征。因為整個循環矩陣都是由n×1向量演變而來，所以循環矩陣不需要空間專門去保存它。這樣的好處是增加了樣本的數量，使得訓練的結果更為准確。

3）KCF/DCF
KCF全稱為Kernel Correlation Filter 核相關濾波算法。是在2014年由Joao F. Henriques, Rui Caseiro, Pedro Martins, and Jorge Batista提出來的，算法出來之后也算是轟動一時。
KCF在CSK的基礎上拓展了HOG特征，替代原有的特征能取得更好的效果。HOG特征也是運用的比較廣的一個特征，簡單來說是對輸入圖片進行分塊，分成最小單位cell后計算一個cell水平梯度和豎直梯度，並將ixi個cell組成一個block進行歸一化，這樣做我們可以忽略平面內部一些大塊非邊緣信息，也可以減少光照的影響。HOG特征的好處在於它用的是像素與像素之間的向量來作為特征，這個意味着全局光照的亮暗對其影響有限，魯棒性強，HOG對局部紋理的敏感性更強。

KCF和DCF是在特征上采用了多通道，而兩者的不同在於采用不同核函數，用Gauss核函數叫KCF，采用linear kernel時叫DCF,其中DCF由於采用的linear-kernel,所以multi-channel合並時有優勢，速度比KCF快，效果差一點點。

至今對於DCF這個模型為基礎仍有很多學者進行研究改進，如SRDCF在其基礎上解決了多尺度問題和加入懲罰項。

4）CN
CN是在CSK的基礎上拓展多通道顏色特征，其方法是將RGB的3通道圖像投影到11個顏色通道，分別對應英語中常用的語言顏色分類，分別是black,blue, brown, grey, green, orange, pink, purple, red, white, yellow(對比漢語中常用的語言顏色分類：赤橙黃綠青藍紫+黑白灰，英語和漢語對顏色的認知還是略有差異的)，並歸一化得到10通道顏色特征。作者還測試了多種顏色特征在相關濾波中的效果，發現CN最好，其次是LAB；

5）DSST
DSST算法也是基於KCF算法改的較好的一種。DSST（Accurate Scale Estimation for RobustVisual Tracking）是2015年BMVC（InProceedings of the British Machine Vision Conference）上的文章，並在2014VOT比賽中奪得了第一名，算法簡潔，性能優良，可移植性高。之篇文章是基於MOSSE，KCF基礎上的改進，主要有兩個方面：（1）引入多特征融合機制，這個和SAMF算法一樣，使用的特征為HOG+CN+灰度特征；（2）文中最大的創新點是對於尺度的改進。
DSST的最大改進在於通過取圖像金字塔，增加了一個尺度濾波器，其計算過程如下：
1、和KCF一樣，用一個相關濾波器進行跟蹤，得到目標的位置；
2、在目標的基礎上通過調整跟蹤框的比例，通過圖像金字塔，從不同的尺寸去檢測，尋找響應值最大的尺度，從而實現尺度自適應。

其中，P,R分別為目標在前一幀的寬高，a=1.02為尺度因子，S=33為尺度的數量。上述尺度不是線性關系，而是由精到粗(從內到外的方向)的檢測過程。
小結
相關濾波的出現在目標跟蹤領域引起了很長一段時間基本上統治了目標跟蹤領域，雖然在2016年之后，相關濾波和深度學習的融合越來越多，但是其跟蹤思想直至現在依然處於主流的地位。

2、基於深度學習的跟蹤算法
1）MDNet
MDNet是2015年VOT的冠軍，將深度學習引入目標跟蹤，這篇文章的創新點是用深度學習抽取運動的特征，將運動特征添加到目標跟蹤中，下圖是MDNet的網絡結構模型。

MDNet在視覺跟蹤方面更有效的原因
1、網絡較淺:視覺跟蹤的任務是為了區分目標和背景兩類，比一般的視覺識別問題具有更小的復雜度(ImageNet的分類任務需要區分1000類)
2、定位精確:深層的CNN不利於精確地目標定位，因為網絡越深，空間信息往往會被稀釋
3、目標較小:視覺跟蹤中的目標往往較小，這就使得網絡的輸入圖像尺寸變小，繼而降低了網絡的深度
4、速度較快:目標跟蹤任務中較小的網絡效果往往更好，訓練和測試是在線進行的。
5、與相關濾波相比，正負樣本是以經過卷積后的特征圖保存的，可以節省空間，總正樣本集為最近100次成功幀的正樣本，而總負樣本集為最近20次成功幀的負樣本。
具體的網路結構和實驗可以自行去看MDNet的論文，在這我們更加關心的是它如何實現目標追蹤任務。
MDNet的跟蹤過程：
1、根據上一幀的target bounding box 生成256個候選區域（如果是第一幀的話輸入預訓練好的CNN網絡和第一幀的目標輸入）
2、前向傳播計算這256個候選區域的得分(conv1-FC6)，挑選出計算目標得分最高的5個，對這5個候選區域取平均生成當前幀的target bounding box，並且計算這5個區域得分的平均值，與一個閾值(作者代碼中提供的是0)比較，判斷是否跟蹤成功。若成功，則進行bounding box 微調；若跟蹤不成功，首先擴大搜索區域(下一幀生成候選區域時用到)，然后復制前一幀的結果為當前幀的結果。
3、跟蹤成功時收集數據:根據當前幀預測的target bounding box 生成50個正樣本區域(IOU>=0.7)，生成200個負樣本區域(IOU<=0.3)，然后分別對這些樣本區域進行前向傳播，最后保存的是這些區域的conv3特征【其中幀數超過100個則拋棄最早的那些幀的正樣本區域，幀數個數若超過20個則拋棄最早的那些幀的負樣本區域】
4、跟蹤失敗時進行網絡的短期更新，選擇最近的20幀的正樣本和負樣本(這些正樣本和負樣本都是以conv3特征進行保存)，然后進行迭代訓練15輪，迭代過程和步驟3相同（迭代更新的是fc4~fc6）
5、每10幀進行一次長期更新，選擇最近100幀的正樣本區域和最近20幀的負樣本區域進行網絡更新，然后迭代15輪，迭代過程和步驟3相同（迭代更新的是fc4~fc6）
值得一提fc6是一個二分類層（Domain-specific layers），一共有K個，對應K個Branches(即K個不同的視頻)，每次訓練的時候只有對應該視頻的fc6被使用，前面的層都是共享的。

2）TCNN
Modeling and Propagating CNNs in a Tree Structure for Visual Tracking（TCNN，CVPR2017）這篇論文是VOT2016的亞軍，是由韓國POSTECH大學的Hyeonseob這個組做的，這個組之前提出了MDnet，CNN-SVM算法。
TCNN通過在樹形結構中管理多個目標外觀模型來呈現在線視覺跟蹤算法。所提出的算法使用卷積神經網絡（CNN）來表示目標外觀，其中多個CNN協作以估計目標狀態並確定樹中在線模型更新的期望路徑。通過在樹形結構的不同分支中維護多個CNN，可以方便地處理目標外觀中的多模態，並通過沿樹路徑的平滑更新來保持模型可靠性。由於多個CNN共享卷積層中的所有參數，因此通過節省存儲空間和避免冗余網絡評估，它利用了多個模型而幾乎沒有額外成本。
TCNN算法的原理：
1、這篇論文使用多個CNN用樹形結構組合起來，一起對新的一幀進行目標檢測，檢測分數最高的proposal就是選中的target；
2、當一個新的幀進來時，根據上一幀的跟蹤結果生成256個候選框，對每個候選框都使用目前的CNN樹來計算自己的score，score最高的就是選中的target；
3、在在線跟蹤過程中，每十幀添加一個新的CNN節點，並刪除最前的一個節點，只保留最近的十個CNN節點，這樣就做到了模型更新；

閱讀完后，我對樹結構是這樣理解的，每個CNN實際上是一個CNN塊，里面包含着3個conv和3個fc，每個CNN都有自行對輸入圖片輸出前景和背景兩個概率值的能力。而作者想用樹形結構組合多個CNN，一起對新的一幀進行目標檢測，取得分數最高的，這就在於如何訓練使得這多個CNN有不同的評分能力，為了節約資源，文中提出CNN的conv3層是共享的，也就是說不同的只有全卷積層。
從論文中，發現其實不同的全卷積層對目標外觀的姿態有不同的敏感性，舉個例子，當一個人的正臉圖和側臉圖同個全連接層可能會評分不同，但是卻可以專門訓練一個全連接層對該狀態敏感。在跟蹤時，雖然TCNN通過了10個CNN去求分數，由於每個CNN之間實時遞歸了關聯性，只通過關聯性高的路徑求加權來執行目標估計，這樣可以防止某個CNN出錯帶來的問題。然后再通過得到的所有加權估計比較最大值為該候選框的分數。

3）GOTURN
GOTURN算法采用了YCNN的結構，但是該算法無法控制下一幀的變換形式，不具有變換的內在不變性，除非樣本集包含所有種類所有位置的變換。並且不能自適應調節搜索區域的大小。在GPU上，GOTURN可以達到100幀及以上的速度。

其實我們不難發現GOTURN的網絡結構和SiamFC很像。

4）Deeper and Wider Siamese Networks for Real-Time Visual Tracking（CVPR，2019）
文章對影響跟蹤精度的主干網絡因素進行了系統的研究，為Siamese跟蹤框架提供了一個架構設計的指導；基於文章提出的無填充殘差單元，設計了一種新的用於Siamese跟蹤的更深、更寬的網絡架構。實驗結果顯示新的架構對基准跟蹤算法確實有很明顯的性能提升效果。
作者通過消融實驗對加深Siamese的網絡結構造成的性能下降進行定性定量的實驗，總結了四個基本的設計指南：
1、即使網絡深度增加也盡量不要增加步長，從經驗上權衡准確率和效率的化，補償選擇4或者8；
2、應該根據其與樣本圖像大小的比例來設置輸出特征的感受野，經驗來看，有效比例為60%～80%，最大感受野不應該大於目標圖像；
3、設計網絡結構時應該綜合考慮步長、感受野和輸出特征圖尺寸，如果改變一個，其他兩個也需要相應改變，這樣可以給Siamese框架提取更有區分度的特征；
4、對於全卷積Siamese網絡，去掉填充操作是至關重要的。由其引起的位置偏差會影響Siamese跟蹤器的精度和魯棒性，尤其是目標快速移動或者在圖像邊界移動時。
為此，本文作者設計了一個CIR單元模塊，可以通過該模塊的堆疊獲得更深、更寬的主干網絡。

圖中可以看到，基本的CIR單元，在殘差單元的add后面加入了一個裁剪層，其目的在於將那些受到之前填充操作影響的地方都刪除；下采樣的CIR-D單元，為了消除填充的影響，作者在瓶頸層和短接層中將步長改為1，在add之后同樣采用裁剪，最后再使用最大池化執行尺寸下采樣；CIR-Inception和CIR-NeXt單元，將CIR單元通過多個特征變換擴寬而來，其他修改與CIR-D的修改差不多。

3、深度學習和相關濾波相結合
1）DeepSRDCF
DeepSRDCF在VOT2015中取得了第四名的成績，它是在SRDCF的基礎上進行改進的，速度為4fps。這也是深度學習和相關濾波的一次結合。雖然結合的方式和直接，作者發現CNN所提取的feature map的在解決跟蹤的問題比傳統方法所提取的特征好，而且在跟蹤問題中，不需要太高的語義信息，淺層的特征在目標跟蹤中的效果更好。為此DeepSRDCF與SPDCF的不同在於將原有的特征換成了CNN的特征。

2）C-COT
C-COT算法是DCF（KCF）算法的又一重要演進算法，該算法在VOT-16上取得了不錯的成績。C-COT使用深度神經網絡VGG-net提取特征，通過立方插值，將不同分辨率的特征圖插值到連續空間域，再應用Hessian矩陣可以求得亞像素精度的目標位置（就和SURF、SIFT里面獲取亞像素精度特征點的思想類似）。確定插值方程之后，還解決了在連續空間域進行訓練的問題。C-COT也是基於SRDCF的框架去改進的，最大不同在於將學習檢測過程推廣到連續空間域中，獲得亞像素精度的位置。

由於不同的卷積層能獲得的信息意義不同，底層的特征更有利於確定精確的位置，越深層的特征包含語義信息。通過多分辨率的特征圖，結合多分辨率的濾波器進行訓練和檢測，可以獲得更加精確的位置和更好的魯棒性。應用三次線性內插值進行目標位置亞像素精度的定位。
D-COT的由於采用了深度信息實際上測試速度很慢，也符合近幾年的改進情況，以犧牲高效性來提高性能。

3）ECO（2017）
自MOOSE的提出之后，在相關濾波上有很多學者做了獲得工作，但是隨着特征維度越來越高，算法復雜性上升，跟蹤效果雖然逐步提升，但是卻以跟蹤效率的犧牲作為代價。ECO算法（下一作）在C-COT的基礎上將速度提升到了60fps，並且將樣本分組解決過擬合問題，效果更好了。
為此ECO以提高時間效率和空間效率為出發點，分析了速度降低的三個重要的因素：
1、模型大小，更加復雜的特征的融合和應用，使得每一次更新模型的參數量越來越大，模型速度就下降了。而且增加維度卻沒有足夠的樣本數，容易引起過擬合。
2、訓練集大小，將每一幀的目標作為新的樣本加入到訓練集之中，對相關濾波器進行更新，但是隨着視頻序列的增加，訓練集中的樣本數會越來越多，使得訓練越來越慢。像傳統方法是進來一幀我就丟棄最前面的一幀，如果后面的幀是錯誤的話，目標跟蹤就會越跟越偏。
3、模型更新，模型更新是否需要對每一幀都進行更新。
針對以上三個問題，在ECO中進行了改進：
1、 Factorized Convolution Operator（因式分解的卷積操作）
在C-COT中，作者對每一個特征圖都對應一個濾波器，ECO在特征提取上做了簡化。用了原來特征的子集，從D維的特征中選了其中的C維。C-COT是每個維度的特征對應一個濾波器，D維的特征就有D個濾波器，其實很多濾波器的貢獻很小。如圖一所示，C-COT的大部分濾波器的能量很小。而ECO只選擇其中貢獻較多的C個濾波器，C<D，然后每一位特征用這C個濾波器的線性組合來表示。這里的C維如何選擇文中沒有具體說，我猜測是簡單的利用濾波器中大於某個閾值的元素個數來選擇。

新的檢測函數為：

2、ECO簡化了訓練集

上圖中下面一行是傳統的訓練集，每更新一幀就加一個進來，那么連續的數幀后訓練集里面的樣本都是高度相似的，即容易對最近的數幀樣本過擬合。上面一行是ECO的做法，ECO用了高斯混合模型(GMM)來生成不同的component，每一個component基本就對應一組比較相似的樣本，不同的component之間有較大的差異性。這樣就使得訓練集具有了多樣性。

3、對樣本更新每一幀都做，對模型更新只是每隔i幀做一次。

總結一下ECO效果好的原因：

特征全面（CNN, HOG, CN），這個對結果的貢獻很高;
相關濾波器經過篩選更具代表性（2.1做的），防止過擬合；
訓練樣本具有多樣性（2.2做的），減少冗余；
非每幀更新模型，防止模型漂移；
4）SiamFC
SiamFC的提出被很多人當成了破冰之作，打破了相關濾波在目標跟蹤領域的壟斷地位，可以說真正出現了一種可以和相關濾波相匹敵的目標追蹤網絡。
全卷積孿生網絡作為基本的跟蹤算法，這個網絡在ILSVRC15的目標跟蹤視頻數據集上進行端到端的訓練。我們的跟蹤器在幀率上超過了實時性要求，盡管它非常簡單，但在多個benchmark上達到最優的性能。

上圖的∗表示的就是相關濾波，就是用一個FeatureMap卷積另一個Feature Map的操作。最后生成一張17x17的概率(score)分布表，概率最大的那個就是目標位置，映射會原圖像就可以得到輸出bbox。
全卷積網絡的優點是待搜索圖像不需要與樣本圖像具有相同尺寸，可以為網絡提供更大的搜索圖像作為輸入，然后在密集網格上計算所有平移窗口的相似度。本文的相似度函數使用互相關，公式如下

本文提出了一種全卷積的Siamese網絡，稱為SiamFC。全卷積的結構可以直接將模板圖像與大塊的候選區域進行匹配，全卷積網絡最后的輸出就為我們需要的響應圖。在響應圖中尋找響應值最高的一點，該點在候選區域中的對應部分，就是預測的目標位置。也可以用感受野來理解，上圖中輸出的小紅點和小藍點，對應在輸入層的感受野就是輸入圖像x中的紅色區域和藍色區域。

5）Siamese Net大爆發（2018，SiamRPN, SA-Siam-R）
上文所說的Siamese FC存在一些問題：bbox需要回歸，需要多尺度測試，效率低；由於采用模板，提取的數據為首幀較為單一，單有兩個人重疊時bbox框容易跑到其他人身上去。
而Siamese RPN的提出是將網絡后的FC換成了RPN，網絡結構如下：

RPN相關的知識可以通過閱讀Faster R-CNN來了解，這里不再多說明。

一開始我比較好奇的是為什么SiamRPN比SiamFC的EFO要高那么多，通過總結的是因為RPN的應用，不需要進行多尺度的測試了，可以直接進行位置、大小的回歸，因此提高了算法的跟蹤速度。

SA-Siam由語義分支和外觀分支組成，每一個分支都是一個相似性學習孿生網絡。作者分別訓練了這兩個分支來保持兩種類型特征的異質性，也就是讓兩種特征不一樣。此外，作者在語義分支上加入了通道注意力機制，這個東東是干啥的，它可以根據目標位置周圍的信息激活來計算通道權重，不同的跟蹤目標有不同的通道權重。同時SiamFC的固有結構可以讓跟蹤器保持實時性，兩個孿生網絡和注意力機制的設計可以大大的提高跟蹤性能。

這個分支的訓練方法與Appearance branch類似。
testing階段，這個分支也會得到一個響應圖，這個響應圖會與Appearance branch的響應圖求加權平均，得到最終響應圖。經過實驗，論文給出的加權系數為0.3，即0.3A+0.7S。

有幾個點需要注意：
(1)S-Net直接使用預訓練好的AlexNet參數，不用再訓練；
(2)兩路輸入均包含了背景。groundtruth分支輸入以真實目標為中心的與搜索區域等尺寸的區域圖像，而不僅僅輸入真實目標圖像，是為了使用更多的背景信息，這對attention結構是有用的；
(3)使用了conv4和conv5層特征。兩層特征融合，已經證明對跟蹤精度有好處，因為高層特征關注語義，而低層特征保有更精確的位置信息，二者可以互補；
(4)有一個attention結構。attention結構提供特征的channel-wise權重，參數需要學習；
(5)有一個fuse結構。fuse結構可以看作是特征融合，參數需要學習。

其中的attention結構：

在此結構中，特征的各通道權重分別計算，其中conv4層特征空間分辨率為24x24，conv5層則為22x22。對每個特征通道，按上圖方法划分成9格(9個格子尺寸不等)，然后執行最大池化，得到9維特征，經過MLP(多層感知機)和一個sigmoid函數，最后得到該通道權值。
fuse結構較簡單：是1x1的ConvNet，對conv4和conv5特征分別做fusion，得到總共256個通道的特征(其中conv4和conv5特征各有128個通道)。

6）SiamMask（CVPR，2019）

SiamMask同樣是基於孿生網絡，和SiamFC不同的是，這里的*d是depth-wise的cross correlation操作，也就是說這里是對逐通道進行相關性計算，所以得到的響應保持了通道數不變（這里是256）。文章把中間的這個響應稱為RoW（response of candidate window），而后在這個RoW的基礎上分出了三個分支，分別進行分割，回歸和分類。
利用mask生成
（1）axis-aligned bounding rectangle (Min-max)：根據mask的最小最大x、y坐標值生成坐標軸對齊的bounding box，易知，這種方法生成的框是正的，如上圖中的紅框。
（2）rotated minimum bounding rectangle (MBR)：根據mask計算最小外接矩形作為bounding box，這種方式生成的框可以是歪的，如上圖中的綠框。
（3）Opt：最優的方法。這個最優的策略是在VOT-2016的挑戰中被提出來的，（這個方法我沒有去研究），生成的框也可以是歪的，如上圖中的藍框。

這個實驗比較有意思，是在VOT-2016數據集上做的，其標注是帶有旋轉角度的bounding box。實驗是為了對比SiamFC、SiamRPN、SiamMask三個網絡的表現，並且找到這三者在這個數據集上的上限。第一大欄的三行分別表示再給出ground truth的基礎上，用固定比例的框、按照gt的邊緣生成和坐標軸平行的框以及用gt的最小外接框這三種方式預測能夠得到的最好結果。也就分別對應了SiamFC、SiamRPN以及SiamMask三種方法能夠達到的上界。下面兩大行就是這幾個網絡實驗結果的對比了，SiamMask明顯好於其他兩者。
7）UPDT(2018,DCF+CNN)
在ECO提出后的很長一段時間，在相關濾波方向都是基於ECO和C-COT來進行改進的，並沒有什么實質性的進展，沒有性能能全面超過ECO的論文。在ECO中，深度特征的性能並沒有發揮出來，
UPDT對ECO的核心改進是兩種特征區別對待，分而治之，深度特征負責魯棒性，淺層特征負責准確性，兩種檢測響應圖在最后階段自適應融合，目標定位最優化，兼具兩者的優勢。

在ECO中，深度特征和淺層特征的高斯標簽函數相同，UPDT提出要區別對待，實驗結果如上圖(b)，深度特征標准差1/4最好，淺層特征標准差1/16最好。通過標簽函數增加的正樣本等價於平移數據增強，所以論文解釋是：深度特征對小平移的不變性，同上從增加的正樣本獲益，深度特征更應該關注魯棒性；小平移會使feature map差異巨大，tracker無法處理大量有差異的正樣本，淺層特征更應該關注准確性。將深層特征和淺層特征加權融合。

這是在VOT2017的實驗效果

UPDT從研究deep tracker為什么無法從更好更深的CNN獲益這一問題開始，研究發現深度特征和淺層特征表現出截然不同的特性，先分后合的處理方法：
分，區別對待，深度特征負責魯棒性，淺層特征負責准確性，數據增強和寬標簽函數對深度特征提升巨大。
合，自適應融合，提出質量評估方法，以最大化融合質量為目標函數，最優化方法同時獲得深度特征的魯棒性和淺層特征的准確性。

參考連接
C-COT參考：http://www.p-chao.com/2017-04-20/圖像��%9
F%E8%B8%AA%EF%BC%88%E5%8D%81%EF%BC%89c-cot%E7%AE%97%E6%B3%95%EF%BC%9A%E8%BF%9E%E7%BB%AD%E7%A9%BA%E9%97%B4%E5%9F%9F%E7%9A%84%E5%8D%B7%E7%A7%AF%E6%93%8D%E4%BD%9C/
ECO參考：https://blog.csdn.net/zixiximm/article/details/54378397
SiamFC 參考：https://blog.csdn.net/nightmare_dimple/article/details/74210
147
SiamRPN參考：https://blog.csdn.net/leviopku/article/details/81068487
SA-Siam參考：https://blog.csdn.net/fzp95/article/details/81028039
SiamMask參考：https://blog.csdn.net/hey_youngman/article/details/88751952
UPDT參考：https://zhuanlan.zhihu.com/p/36463844
MDNet參考連接：https://blog.csdn.net/Zfq740695564/article/details/79598559
TCNN參考連接：https://blog.csdn.net/sinat_31184961/article/details/84023617
相關濾波、KCF參考：https://blog.csdn.net/sgfmby1994/article/details/68490903
MOSSE參考：https://blog.csdn.net/qq_17783559/article/details/82254996
HOG參考：https://blog.csdn.net/wjb820728252/article/details/78395092
DSST參考：https://blog.csdn.net/weixin_38128100/article/details/80557460
————————————————
版權聲明：本文為CSDN博主「藏暉」的原創文章，遵循CC 4.0 BY-SA版權協議，轉載請附上原文出處鏈接及本聲明。
原文鏈接：https://blog.csdn.net/qq_34919792/article/details/89893433

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Python 發展歷史 JAVA發展歷史！ Python的發展歷史及其前景 Web開發的發展歷史 .net版本發展歷史安卓發展歷史 linux的發展歷史 HTML發展歷史 HTTP協議發展歷史 Spark的發展歷史