基於人體部件小邊特征的多行人檢測和跟蹤算法

本文轉載自查看原文 2016-09-16 16:27 3632

基於人體部件小邊特征的多行人檢測和跟蹤算法

detection

tracking

edgelet feature

multiple occluded human

Bayesian combination

讀"B. Wu, R. Nevatia. Detection and tracking of multiple, partially occluded humans by Bayesian combination of edgelet based part detectors[J],IJCV,75(2),247-266" 筆記

文章主要貢獻點

-基於小邊特征(edgelet feature) boosting的人體部件檢測子
-使用貝葉斯方法combine人體部件檢測結果實現部分遮擋人體的檢測
-自主的多行人跟蹤方法，該方法可以處理時序隊列中人體部分遮擋和相互遮擋問題

行人檢測

對於小邊特征和人體部件檢測子以及Joint likelihood function for combined detector可以參見另一篇文章

B.Wu, R. Nevatia. Detection of Multiple,Partially Occluded Humans in a Single Image by Bayesian Combination of Edgelet Part Detectors[C], ICCV,2005.

對應的閱讀筆記：

http://www.cnblogs.com/YiXiaoZhou/p/5875533.html

這里僅記錄一些不同之處。

Multi-View Part Detector
為了解決人體平面內左右旋轉的檢測問題，類似於嵌入級聯分類器中人臉檢測使用的multi-view人臉檢測，這里首先尋找不同的視角下的行人部件，然后將不同視角下的相同部件的樣本集合以來以訓練該部件在不同視角下共同的特征。
該過程的結構如下：

structured multi-view part detector.jpg

在檢測過程中，首先將sub-window輸入上圖的root節點然后將判斷該圖像是哪一類“left profile”?"Frontal/real"?"right profile"?如果都不是則直接將該圖像判定為非human區域，由於單幀圖像中非行人區域較多，所以該步驟能夠過濾掉很多非目標區域，加快檢測速度，對於行人區域則按視角分到不同的類中。
將不同類中的相同部件在一起訓練部件檢測子。

The main advantage of this algorithm is that the features selected are shared among different view point categories of the same object type. This is much more efficient than learning detectors for individual view points separately.

Bayesian Combination of Part Detectors
和Joint likelihood function那節內容不同的是那里用二元組刻畫部件狀態，而這里使用四元組刻畫,分別表示該部件的類型標簽、中心位置坐標、大小、和可見度(沒有被遮擋部分占整個部件的比率)。
同樣的行人分成部件，觀測和初始化狀態匹配后最大化后驗概率(MAP),這種方法還是偏重於相信FB和HS兩個部件檢測子的結果，T和L檢測子用來驗證檢測結果。

該檢測系統有三種輸出

original responses： 各個部件檢測子檢測的結果，對於同一個目標，同一個部件檢測子可能獲得好多檢測輸出，因為sub-window是2pixel滑動的
merged responses: 對檢測子的original response使用clustering方法聚合，使最終每個目標只對應於該部件檢測子的一個響應，clustering可以隨機選定一個響應，然后把和它重疊度很大的響應合並起來。怎么合並文中沒具體說，個人認為可以計算這些響應的狀態均值。
combined response: 有merged responses使用上述模型最終得到的響應就是combined responses。'One combined response has several matched part responses.'(combined response是行人假設，當然包含部件的響應)

detection responses.jpg

行人跟蹤

在每一幀圖像上使用上一節的行人檢測方法得到了許多檢測響應，那跟蹤就可以看作是不同幀間響應的匹配問題(data association)。

響應間的親和度
文中使用original responses、merged responses和combined responses一起用於跟蹤。

跟蹤過程中對部件的刻畫擴展為，其中添加個兩個變量分別表示該響應的置信度(由real adaboost給出)和該響應的表觀模型。
combined response 表示為.

於是連續兩幀間相同部件響應的親和度可以如下定義:

其中

分別是位置、大小和表觀的相似度，是巴氏距離。分別是歸一化因子，文中沒有指明將哪些量歸一化，但從后續尋找匹配過程中尋找的是矩陣最小值而不是行或列最小值，隨意推測這里應該是對同意不見檢測子所有pair之間進行歸一化，假設t幀有m個響應，t+1幀有n個響應，那么歸一化因子應該是指對個配對的歸一化
combined responses的親和度如下計算:

表示combined response的第個部件，示性函數是指兩個部件的可見度都要超過一定的閾值。

有了affinity之后可以關聯前后幀的部件。

Suppose at time t of an input video, we have n human hypothese ,whose predictions^[1] at time are ,and at time we have we have responses . First we compute the affinity matrix A of all pairs. Then in each step, the pair, denoted by , with the largest affinity is taken as a match and the corresponding column and row of A are deleted.

軌跡初始化

假設檢測子的正確率為,那么對於一個T幀的序列而言，T個檢測響應全部錯誤的概率為,但是現實情況下，如果前一幀響應出錯，往往隨后一幀出錯的概率也很大，因此不能如此計算。文中定義連續T幀錯誤響應的概率為,定義T幀軌跡的初始化的置信度為：

檢測子精度越高，這里的越大。

如果初始化置信度大於某一個閾值，則認為生成一個可信軌跡(confident trajectory)
這里在定義置信度是使用的T幀沒有全部檢測錯誤的概率，可以理解為存在正確檢測的概率，個人覺得並不合理，而使用T幀全部檢測正確的概率應該會更容易解釋。

同樣適用元祖表示行人軌跡,分別表示combined response、動態模型、和部件檢測響應的表觀模型向量。這里D用來記錄Kalman濾波所需要的模型參數，使用Kalman濾波能夠預測各部件在下一幀的位置，以計算Affinity matrix。

軌跡延展
該部分包括數據關聯和均值漂移兩種情況。
首先對combined responses進行關聯匹配，對於沒有找到匹配的前一幀圖像中的combined responses和該幀中不屬於combined responses的部件進行匹配。

其次對於前一幀出現的響應在該幀沒能找到匹配或者親和度很低的使用meanshift 方法估計在該幀中出現的位置。
meanshift使用的概率圖有三部分組成：動態模型產生的概率圖、檢測概率圖和表觀概率圖.
-可以有動態模型獲得
-如下計算

表示如果該像素點在被部件檢測子檢測到，則加上該檢測子的置信度，文中指出這里算分部件檢測子是original responses。是所有檢測子的平均漏檢率。
==個人覺得這個式子是存在問題的，因為original responses非常多，即使每個response的執行都都很小，那么也可能會使,所以我覺的這里應該計算均值。