多目標跟蹤 綜述(一)
多目標跟蹤,即Multiple Object Tracking(MOT),也稱為Multiple Target Tracking(MTT)。其主要任務是給定一個圖像序列,找到圖像序列中運動的物體,並將不同幀中的運動物體一一對應(Identity),然后給出不同物體的運動軌跡。這些物體可以是任意的,如行人、車輛、運動員、各種動物等等,而研究最多的是“行人跟蹤”。這是因為首先“行人”是典型的非剛體目標,相對於剛體目標難度更大,其次在實際應用中行人的檢測跟蹤更具有商業價值。 據不完全統計,至少的多目標跟蹤研究是在研究行人跟蹤。
在計算機視覺的三層結構中,目標跟蹤屬於中間層,是其他的高層任務(如動作識別,行為分析等)的基礎。而目標跟蹤的主要應用包括:
視頻監控。檢測異常行為,節省大量的人力物力。
人機交互。對於復雜場景中目標交互的識別與處理。
虛擬現實和增強現實。比如游戲中角色運動的設置等。
醫學圖像。
目標跟蹤又包括單目標跟蹤和多目標跟蹤。單目標跟蹤可以通過目標的表觀建模或者運動建模,以處理光照、形變、遮擋等問題,而多目標跟蹤問題就要復雜得多,除了單目標跟蹤回遇到的問題外,還需要目標間的關聯匹配。另外在多目標跟蹤任務中經常會碰到 目標的頻繁遮擋、軌跡開始終止時刻未知、目標太小、表觀相似、目標間交互、低幀率等等問題。所以MOT問題更加棘手。
在介紹MOT問題solutions的一般思路之前,先了解一些術語。
目標。 在一幅圖像中,明顯區別於周圍環境的閉合區域往往被稱為目標,當然這些目標最好具有一定的物理意義。
檢測。 給出目標在圖像中的位置的過程稱為檢測。檢測方法很多,比如模板匹配,對於視頻中運動目標檢測,可以通過幀間差分法、背景減除法、光流法等等實現。
跟蹤。 在連續圖像序列中完成對目標的檢測,並把物理意義下的同一目標相關聯的過程。
檢測響應。 也稱為“檢測假設”、“檢測觀測量”。(detection response,detection hypotheses,detection observations)。是檢測過程的輸出量。
軌跡(Trajectory)。MOT系統的輸出量,一條軌跡對應這一個目標在一個時間段內中的位置序列。
小段軌跡(Tracklet)。 形成Trajectory過程中的軌跡片段。完整的Trajectory是由屬於同一物理目標的Tracklets構成的。
數據關聯。 數據關聯是多目標跟蹤任務中經常使用的典型的處理方法,用於解決目標間的匹配問題,這里的目標可以是detection responses,也可以是tracklets。
注: 所謂的“物理目標”,就是具有相同物理意義的目標,比如兩幅圖像都出現了“張三”、“李四”,那么兩個“張三”就是同一物理目標,雖然有可能兩幅圖像中“張三”的形狀、表觀都發生了很大的變化。

MTT的形式化表達
給定圖像序列,每幅圖像中目標的個數為
,每個目標的狀態使用
表示,這里的狀態可以有位置、大小、速度、表觀等組成,那么每幅圖像中所有目標狀態表示為
,對應的第i個目標的trajectory表示為
,所有圖像中目標組成的狀態序列為
。
對於detection observations可以對應使用表示。
那么MTT任務,即根據detection responses找出目標的trajectory(S_{1:t}),可以formulated as

即后驗概率問題。
這個形式有兩種實現方法:probabilistic inference 和 deterministic optimization。
其中probabilistic方法適合online tracking,每一幅圖像的處理僅和之前的結果有關,類似於Hidden Markov Model,操作分為兩個步驟:預測和更新
預測:
更新:
這類方法有粒子濾波(Praticle Filter)、蒙特卡洛模擬退火(MCMC)等。
另一個deterministic optimization則是利用了當前幀的前后幀信息進行最優化求解,可以通過直接優化替代原問題,也可以通過直接求解相關的能量函數求解。
具體的方法包括二分圖匹配、動態規划、最小流\最大割方法和最大權重獨立集等方法。
MTT方法的分類
MTT方法的分類方法有很多,不同的分類角度對應着不同的分類結果。
初始化的角度
主要強調的是目標式如何獲得的,可以分為Detection Based Tracking (DBT) 和Detection Free Tracking (DFT)。如下圖

DBT是指在跟蹤之前每一幅圖像中目標都是detected,也就是說MOT過程包含一個獨立的detection過程。這種方法性能比較依賴於detectors的好壞。
DFT需要人工標定第一幀圖像中的目標,之后的過程中邊檢測目標邊跟蹤目標。
DFT和DBT相比較,DBT使用的更多。主要原因在於DFT需要人工標定目標,對於非第一幀出現的目標或者中間幀消失的目標沒辦法處理。而DFT相對於DBT的有點在於對目標類型事先要求不高,由人工指定,而DBT的目標類型則由分類器決定。
處理過程的角度
數據的處理方式可以分為Online tracking和offline tracking。如下圖示意

一般而言 online tracking更適用於實際情況,即視頻一般時序列化得到。但是offline tracking更可能得到全局最優解。所以許多方法采用的是在較小的時間片段內使用offline tracking的方法進行折衷。
數學的角度
即前面提到的probability inference和deteministic optimization。
總結:起始可以發現不同的分類之間是存在交叉的,比如DFT就是online tracking的過程。當然DBT也存在online tracking方式,比如兩幀關聯。另外,實際應用中,一般大多數online tracking方法都是probability inference方法,而deterministinc optimization對應着offline tracking。
應用的角度
a. 運動場景中,比如運動員的檢測跟蹤。這個應用中難點體現在數據上,拍攝的圖像存在這各種角度、尺寸的變換,而且,同一隊伍的運動員因為衣服相同,導致表觀難以區分。 但賽場和背景也存在着顯著的邊界特性以及不同隊伍間表觀已區分性也為跟蹤帶來了有用的信息。
b. 航拍場景中, 主要難點在於:目標太小,幀率太低,目標分布密度太大。這類問題處理時一般context、velocity等提供的信息比較多。
泛化的MTT,一般DBT方法要求預先訓練好的detector,這就導致跟蹤目標的類型時確定的。而最近有學者研究針對於任意類型目標的MTT方法,比如在第一幀中人工標定一個目標,然后在前幾幀中檢測出了該目標類似的所有目標,使用這些目標訓練分類器,后續類似於DBT過程,這樣MTT方法就可以針對於不同的視頻數據處理了。