轉載注明出處:
http://www.cnblogs.com/sysuzyq/p/6169414.html
By 少俠阿朱
討論班上的PPT

1.同學大家好。今天給大家講一篇單目標跟蹤的論文,方法比較傳統,但是我覺得比較實用。不過,公式非常多,有一定難度。不過,大家別害怕,因為我看了作者代碼,可以說說怎么做的,大家別太關注公式。
但是我們先大體瀏覽一遍公式,再講一下代碼實現。有興趣可以課后看看。

2.作者發現啊,有時候顏色分布不足以將目標和背景區分開來。相反有時候像HOG這樣的模板在應對劇烈形變的時候往往效果很差。

3.那么作者針對這個問題做了些相關工作,第一個就是說像卷積濾波器就對劇烈形變不魯棒,這是他們的先天缺陷。第二個就是在線學習帶來的模型漂移,這是什么意思呢?現在很多算法都是假設當前預測的是對的,
然后把預測當做正樣本來訓練,更新模型。也就是說,一旦預測不對,后面也跟着錯。學習多個弱的跟蹤器或者是學習一個能變動的模板,比如DPM等等。但是這些方法效果都不是很好。
而作者發現,直方圖特征是不考慮像素的位置,這在一定程度上可以減少形變帶來的影響,而在目標顏色和背景顏色區分力度不夠的時候,CF的魯棒性比較強。所以作者就提出能不能結合他們來做跟蹤。

4.大家看一下這兩個方程,第一個的意思是,對於t幀,我選擇一個pt使得得分函數f的值最大。
第二個是說我要取得一組cita使得整個損失函數最小。這個L是和前面幀的目標位置有關的一個函數。R是正則項。

5.那我們先來看一下f是什么,f由兩項組成,一項是模板的得分,第二項是直方圖得分。這個公式真么意思呢?假設一張圖像x用Z~2表示,則T是x中的某一個patch,u代表patch中一個像素位置,h[]學習到的模板,
大家可以理解為這個式子就是HOG模板h和這個patch的HOG特征(通過fine函數算出來)對應位置的值相乘,然后求和,作為當前點u的響應值。這是卷積操作。整個式子相當於是CF濾波器。

6.
那么直方圖得分怎么求的呢。我感覺作者這里寫的有點含糊,但是看代碼的時候,我才懂,這個beta是對每個點來說的,就是每個點都有一個beta,如果這是三通道的圖片,那么beta就是一個尺度為3的向量。
代表着這個屬於object的概率。那么后半部分就是對一個框內的所有的概率作為積分和,作為這點是目標中心的概率。

7.再看損失函數。Lossfunction是每張圖像的loss的和,這是一個非凸函數,雖然可以求解出便捷,比如Struck算法。但是計算非常復雜和消耗資源。

8.所以作者提出用兩個嶺回歸來求解這個問題,就是把對h的求解和beta的求解分開來。H可以通過cf的公式求解,對於β,作者提出了另外的快速求解方法。至於很細的求解過程我們過一遍就好了,我們主要關注怎么實現。

9.這里求解的時候,作者來個小插曲,就是講了一下最小二乘的求解,這里大家留意一點,就是這些求得參數,他是一種遞歸的形式,就是說,當前的參數與過去t-1幀的參數和當前幀t的參數有關。


11.通過這種類似的方式,作者求得卷積濾波器的模板參數h,和他的更新方式。所以這個模板是一個頻域上的模板,其中模板的參數dt’和rt’從HOG特征圖的傅里葉變換中計算得到,同時由dt和rt可以計算得到新的模板。
還有直方圖的參數和直方圖更新方式。


13.ψ 相當於取第j維,比如圖像有3維。βT ψ[u] 計算的是第j通道的圖像,u點屬於前景的概率。其中N j(O)
表示第j通道上,點u落在O區域的直方圖對應的bin,這個bin的數值,也就是O的中屬於這個bin的點數。





18.(TRE):把視頻划分成 20 段,從每幀開始運行直到完,計算總體結果。
(SRE):在第一幀使用8個空間偏移(其中4個中心偏移和4個角偏移,都為目標尺寸的10%)和4個尺度偏移(0.8,0.9,1.1 和 1.2)。共運行12次。




付論文注釋:









