多目標跟蹤 綜述(二)
前面介紹了什么是MTT問題,MTT問題面臨的難點,以及MTT的一般形式化表達和方法的分類。這里主要介紹下一般的MTT方法都包含哪些component,以保證提出模型考慮問題更加全面。
一般MTT方法都會包含個components,分別是Appearance Model,Motion Model,Interaction Model, Exclusion Model 和Occlusion Model。
Appearance Model
即表觀模型,這里既包含目標的視覺表示,也包括目標間相似性、相異性的度量。
視覺表示肯定是基於圖像特征了。這里先介紹一些特征。
point feature, 比如Harris角點、SIFT角點、SURF角點等等
Color/intensity features, 比如最簡單的模板、顏色直方圖等
Optical flow, 光流特征蘊含了時域信息
Gradient/pixel-comparison features, 基於梯度的特征,典型的如HOG特征
Region covariance matrix features, 該特征對於光照和尺度變換相對魯棒
Depth, 即深度信息,對於視頻這種3D數據作用還是蠻大的
others,針對於具體應用的特征,比如對於行人的步態特征等
總之呢,每個特征都不是萬能的,有優點也有缺點,比如Color histogram簡單,容易計算相似性,但其僅僅是統計信息,丟失了區域像素的位置信息。 Points features對於平面內變換非常有效,但對於遮擋和out-of-plane變化就無能無力了。 HOG等梯度特征顯然對光照比較魯棒,但對於遮擋和形變效果很差,Region covariance matrix鑒別能力很強,但計算太復雜。 Depth則很難獲得精確值。
接下來介紹一些目標表示方法
像素模板表示
這是最基本的方法,直接使用目標所在區域的像素矩陣表示目標。目標間的相似度使用歸一化交叉相關系數的函數表征(NCC,Normalized Cross Correlation)。比如已知目標的模板表示,則候選目標與源目標的相似度可以定義為
。采用模板匹配的方法進行跟蹤時,一般每一幀都要更新模板,簡單易行,但顯然這種方法對於遮擋、光照等問題比較敏感。
顏色直方圖表示
由於顏色直方圖能夠很方便的獲得目標區域的統計信息,顏色直方圖被廣泛采用。 顏色直方圖之間的相似性或者相異性一般和
直方圖的巴氏系數有關(Bhattacharyya coefficient)。
比如我們前面介紹的基於人體部件的行人跟蹤方法中,兩個tracklets的相似度定義為

其中表示巴氏系數,
表示顏色直方圖。
再比如zhang[1]中,假設已知目標的顏色直方圖
,則目標之間的相似度刻畫為

其中表示巴氏距離,
分別表示目標相似性和相異性的高斯分布的均值和方差,這可以由訓練集獲得。
但是顏色直方圖丟失了空間信息。
協方差矩陣表示
(這個我也是不大明白,這里粗略的介紹下,后面搞明白了再補)
Henriques等2011年的一篇文章[2]中使用協方差矩陣表示目標的表觀,其光照、旋轉等具有較好的魯棒性。
目標之間匹配可能性定義如下

高斯分布的參數由訓練集得到。
(待補)
其他
還有一些其他方法,比如基於梯度的表示方法和詞袋表示方法等。
上面介紹的一些表示方法都存在不同的優缺點,因此可以把他們結合起來利用。結合方式包含以下幾種
Boosting
比如real adaboost方法去篩選出一些鑒別能力較強的特征Concatenating
比如將HoG,顏色直方圖,光流等特征串聯起來,然后再使用PCA進行降維,得到目標表示。目標之間相似度可以定義為
,
是在線獲得的協方差矩陣
Summation
這個是指不同表示獲得的相似度進行加權求和。比如。
Product
這個主要是從概率的乘法公式考慮。比如目標的某個潛在匹配
顏色直方圖、形狀、詞袋表示為
的概率為
,假設這些特征是獨立的,那么
。
Cascading
這個是只采用級聯的方式判斷目標間的相似度,如果一種表示認為目標間匹配再繼續使用下一種表示判斷,出現不匹配的判斷則停止,認為不匹配,知道所有的表示都判斷完。
Motion Model
該成分主要考慮時域上的運動特性,比如速度的漸變等。
該模型主要采用的方式有兩種:勻變速模型和變速模型
勻變速模型
顧名思義,該模型認為速度除了噪聲干擾,應該是保持均勻變化的,比如加速度為0。

這個應用很多,比如前面文章(MTT)連續能量函數最小化方法中使用全局速度累積變化來約束速度變化, 再比如之前基於層次關聯的魯棒多目標跟蹤中使用速度刻畫tracklets相連的概率

如下圖

上面兩個模型僅考慮時間上tracklets的速度關系,還有方法考慮到空間中相鄰tracklets的關系,比如tracklets近鄰對,如果已經知道
相匹配,計算
匹配的可能性。可以首先將
的起始時間對齊
,然后計算在
時刻預測的兩個目標距離與響應間距離的差異
,其中上標
表示end,其距離差異可以認為服從高斯分布
,所以如果距離越小,也就表示
匹配的可能性越大。

除了加速度為0,還可以考慮加速度非零情況,比如

Note。 對於這個表示我個人覺得並不合適,因為第二項速度的分布和第三項加速的的分布並不是獨立的。
非勻變速模型
有些獲取的視頻並不能保證每幀之間的速度是漸變的,比如低幀高速運動的物體中速度突然發生改變,那么顯然勻變速假設就不合理了,所以也有非勻變速模型的提出。
Yang[3]中使用了一些tracklets集合作為速度變化較大的tracklets之間的銜接部件,比如下圖中顯然按照勻變速模型的處理方式,判斷他們匹配的概率很小,然后使用銜接集合中的
,
的頭節點和
的尾節點匹配度較高,
的尾節點和
的頭節點匹配度較高,那么就可以認為
構成一個較長的tracklet.

Interaction Model
同一運動場景中的目標,往往運動軌跡會相互影響,比如晨跑中跑步的人往往傾向於扎堆,但又保持距離,隨着跑步過程,相距很近的人慢慢的節奏就調整一致等等。 interaction Model包括兩種典型的模型: social force model和crowd motion pattern model
social force model
該模型認為每個個體受到兩部分作用:自身作用和外部作用
自身作用:1. fidelity,首先目標的目的地不會發生改變;2. constancy,其次個體的速度一般不會發生跳變,包括大小和方向
環境作用:1. attraction,首先同一類的個體往往距離很近;2. repulsion,其次每個目標都會有相應的舒適距離,不能太近;3. coherence,靠近的目標往往速度會比較相近。
介紹幾個模型:
Pellegrini(2009)[4]模型中考慮了fidelity,constancy和repulsion.
repulsion,假設目標表示為表示位置和速度,
表示
之間的最小舒適距離,對應舒適距離的能量項為
,這個能量項形式可以很多,然后目標
和附近所有目標舒適距離的約束為
,其中
表示權重。
fidelity,,其中
表示目標i的目的地位置
constancy,,這里
是預估的目標i的均勻速度
所以最終interaction model為:
通過這個模型的優化,能夠有效減小待匹配空間的大小,使數據關聯的復雜度得到下降。
Yamaguchi (2011)[5]除了類似與Pellegrini(2009)模型中的repulsion和constancy外還考慮了其他四個方面。
那個目標表示為,分別是位置、速度、預估速度、目的地、所在group
速度:速度是漸變的,速度應該近似與預估速度
attraction,

其中第一項相當於刻畫同一組內速度的余弦距離,第二項相當於計算同一組目標相對位置和速度的余弦,文中沒有說v是什么速度,我有點困惑這里,為什么要計算第二項。。。。。。
Scovanner(2009)[6]提出的模型中包含了4個部件。約束目標不要在space內大幅跳變,
約束速度不變,
保證目的地不變,
約束目標之間的關系repulsion。
crowd motion pattern models
該模型一般適用於過擁擠的環境,這中情況下,目標往往非常集中以至目標太小,表觀等特征根本起不到作用,這時候就場景中特有的運動模識就起到了關鍵作用了。
Ali(2008)[6]認為目標的行為往往收到周圍環境的影響,包括場景結構和目標周圍物體等。所以他們認為目標收到三個方面的作用。
Static Floor Fields (SFF),主要考慮的是scene structure,包括出現最多的路徑區域和出口信息等。
Boundary Floor Field (BFF),主要考慮可能對目標產生遮擋的部分
Dynamic Floor Field (DFF),主要刻畫目標周圍其他目標的總的運動趨勢
然后三個部分進行加權綜合考慮
Zhao(2012)[7]使用ND tensor voting的方法獲得所有目標運動模式,然后使用這些模式進行預測位置和速度等
還有一些其他模型這里不再介紹。
Exclusion Model
這部分主要是指1。一個目標只能出現在一條軌跡上;2. 一條軌跡只能對應一個目標,就是說多個目標不能出現在同一段軌跡上
Occlusion Handling
遮擋問題是多目標跟蹤中的難點。處理遮擋問題的方法包括
Part-to-whole,即將目標分解成若干個部件,當目標被部分遮擋時,還可以通過部件的匹配來推測整體目標的匹配
Hypothesize-and-test,假設檢驗的方法根據觀測值去估計目標在其他未被檢測區域是因為遮擋導致的概率,可以說是一種MAP方法
Detection-of-occlusion, 有些學者通過直接對遮擋的樣本進行訓練,然后使用分類器去檢測並判斷遮擋區域
Buffer-and-recover,這種策略當目標在下一幀中沒找到匹配時,記下最后檢測到的目標s,先把目標緩存起來,然后繼續進行之后幀的匹配,如果在T幀內找到匹配的目標
,那么就將
連接起來,認為中間都被遮擋了,否則則認為軌跡在
處已經終止。
others,比如實際應用中也會根據相機位置和區域中心坐標來判斷誰被遮擋了,有時這些策略也會聯合使用。
多目標跟蹤的評價指標
這個參見多目標跟蹤的評價指標
下一篇,我們介紹下常用的數據集和已經存在的公布代碼的方法。
Zhang L, Li Y, Nevatia R (2008) Global data association for multi-object tracking using network flows. CVPR, 1-8 ↩
Henriques JF, Caseiro R, Batista J(2011) Globally optimal solution to multi-objecy tracking with merged measurements, ICCV,2470-2477 ↩
Yang B, Nevatia R(2012a) Multi-target tracking by online learning of non-linear motion patterns and robust appearance models. ICCV, 1918-1925 ↩
Pellegrini S, Ess A, Schindler K, Van Gool L(2009) YOu'll never walk alone: Modeling social behavior for multi-target tracking. ICCV, 261-268. ↩
Yamaguchi K, Berg AC, Ortiz LE, Berg TL(2011) who are you with and where are you going? CVPR, 1345-1352 ↩
Ali S, Shah M(2008) Floor field for tracking in high density crowd scenes. ECCV,1-14 ↩ ↩
Zhao X, Gong D, Medioni G(2012) Tracking using motion patterns for very crowed scenes. ECCV, 315-328 ↩