基於人體部件小邊特征的多行人檢測和跟蹤算法


基於人體部件小邊特征的多行人檢測和跟蹤算法

讀"B. Wu, R. Nevatia. Detection and tracking of multiple, partially occluded humans by Bayesian combination of edgelet based part detectors[J],IJCV,75(2),247-266" 筆記


文章主要貢獻點

-基於小邊特征(edgelet feature) boosting的人體部件檢測子
-使用貝葉斯方法combine人體部件檢測結果實現部分遮擋人體的檢測
-自主的多行人跟蹤方法,該方法可以處理時序隊列中人體部分遮擋和相互遮擋問題


行人檢測

對於小邊特征人體部件檢測子以及Joint likelihood function for combined detector可以參見另一篇文章

B.Wu, R. Nevatia. Detection of Multiple,Partially Occluded Humans in a Single Image by Bayesian Combination of Edgelet Part Detectors[C], ICCV,2005.

對應的閱讀筆記:

http://www.cnblogs.com/YiXiaoZhou/p/5875533.html

這里僅記錄一些不同之處。

Multi-View Part Detector
為了解決人體平面內左右旋轉的檢測問題,類似於嵌入級聯分類器中人臉檢測使用的multi-view人臉檢測,這里首先尋找不同的視角下的行人部件,然后將不同視角下的相同部件的樣本集合以來以訓練該部件在不同視角下共同的特征。
該過程的結構如下:

enter description here

structured multi-view part detector.jpg

在檢測過程中,首先將sub-window輸入上圖的root節點然后將判斷該圖像是哪一類“left profile”?"Frontal/real"?"right profile"?如果都不是則直接將該圖像判定為非human區域,由於單幀圖像中非行人區域較多,所以該步驟能夠過濾掉很多非目標區域,加快檢測速度,對於行人區域則按視角分到不同的類中。
將不同類中的相同部件在一起訓練部件檢測子。

The main advantage of this algorithm is that the features selected are shared among different view point categories of the same object type. This is much more efficient than learning detectors for individual view points separately.

Bayesian Combination of Part Detectors
和Joint likelihood function那節內容不同的是那里用二元組刻畫部件狀態,而這里使用四元組刻畫,分別表示該部件的類型標簽、中心位置坐標、大小、和可見度(沒有被遮擋部分占整個部件的比率)。
同樣的行人分成部件,觀測和初始化狀態匹配后最大化后驗概率(MAP),這種方法還是偏重於相信FB和HS兩個部件檢測子的結果,T和L檢測子用來驗證檢測結果。

該檢測系統有三種輸出

  • original responses: 各個部件檢測子檢測的結果,對於同一個目標,同一個部件檢測子可能獲得好多檢測輸出,因為sub-window是2pixel滑動的

  • merged responses: 對檢測子的original response使用clustering方法聚合,使最終每個目標只對應於該部件檢測子的一個響應,clustering可以隨機選定一個響應,然后把和它重疊度很大的響應合並起來。怎么合並文中沒具體說,個人認為可以計算這些響應的狀態均值

  • combined response: 有merged responses使用上述模型最終得到的響應就是combined responses。'One combined response has several matched part responses.'(combined response是行人假設,當然包含部件的響應)

enter description here

detection responses.jpg


行人跟蹤

在每一幀圖像上使用上一節的行人檢測方法得到了許多檢測響應,那跟蹤就可以看作是不同幀間響應的匹配問題(data association)。

響應間的親和度
文中使用original responses、merged responses和combined responses一起用於跟蹤。

跟蹤過程中對部件的刻畫擴展為,其中添加個兩個變量分別表示該響應的置信度(由real adaboost給出)和該響應的表觀模型。
combined response 表示為.

於是連續兩幀間相同部件響應的親和度可以如下定義:

其中

分別是位置、大小和表觀的相似度,是巴氏距離。分別是歸一化因子,文中沒有指明將哪些量歸一化,但從后續尋找匹配過程中尋找的是矩陣最小值而不是行或列最小值,隨意推測這里應該是對同意不見檢測子所有pair之間進行歸一化,假設t幀有m個響應,t+1幀有n個響應,那么歸一化因子應該是指對個配對的歸一化
combined responses的親和度如下計算:

表示combined response的第個部件,示性函數是指兩個部件的可見度都要超過一定的閾值。

有了affinity之后可以關聯前后幀的部件。

Suppose at time t of an input video, we have n human hypothese ,whose predictions[1] at time are ,and at time we have we have responses . First we compute the affinity matrix A of all pairs. Then in each step, the pair, denoted by , with the largest affinity is taken as a match and the corresponding column and row of A are deleted.

軌跡初始化

假設檢測子的正確率為,那么對於一個T幀的序列而言,T個檢測響應全部錯誤的概率為,但是現實情況下,如果前一幀響應出錯,往往隨后一幀出錯的概率也很大,因此不能如此計算。文中定義連續T幀錯誤響應的概率為,定義T幀軌跡的初始化的置信度為:

檢測子精度越高,這里的越大。

如果初始化置信度大於某一個閾值,則認為生成一個可信軌跡(confident trajectory)
這里在定義置信度是使用的T幀沒有全部檢測錯誤的概率,可以理解為存在正確檢測的概率,個人覺得並不合理,而使用T幀全部檢測正確的概率應該會更容易解釋。

同樣適用元祖表示行人軌跡,分別表示combined response、動態模型、和部件檢測響應的表觀模型向量。這里D用來記錄Kalman濾波所需要的模型參數,使用Kalman濾波能夠預測各部件在下一幀的位置,以計算Affinity matrix。

軌跡延展
該部分包括數據關聯和均值漂移兩種情況。
首先對combined responses進行關聯匹配,對於沒有找到匹配的前一幀圖像中的combined responses和該幀中不屬於combined responses的部件進行匹配。

其次對於前一幀出現的響應在該幀沒能找到匹配或者親和度很低的使用meanshift 方法估計在該幀中出現的位置。
meanshift使用的概率圖有三部分組成:動態模型產生的概率圖、檢測概率圖和表觀概率圖.
-可以有動態模型獲得
-如下計算

表示如果該像素點在被部件檢測子檢測到,則加上該檢測子的置信度,文中指出這里算分部件檢測子是original responses。 是所有檢測子的平均漏檢率。
==個人覺得這個式子是存在問題的,因為original responses非常多,即使每個response的執行都都很小,那么也可能會使,所以我覺的這里應該計算均值。

-表示的是圖像在人體像素值分布下對應的概率圖。首先肯定要計算人體區域像素的直方圖,然后將圖像映射到該直方圖概率圖上。
首先收集標定一定數量的行人區域,然后計算其子空間(PCA),然后使用迭代的方法獲取大量的行人區域,最后統計這些區域內的像素值的概率直方圖。

最終的概率圖為:

只能說這個meanshift的設計是相當粗糙的,但好在檢測子的效率較高,使用meanshift的次數較少。

軌跡終止
軌跡終止的策略和軌跡初始化的策略類似,終止置信度

第一項計算的是非親和度的平均值,奇怪的是第二項依然使用的是存在檢測正確的概率,覺得應該使用的是全部檢測錯誤的概率

Combined Tracker
軌跡的初始化、軌跡延展和軌跡的終止能夠很好的實現軌跡的逐步檢測,具體過程如圖:

enter description here

forword tracking.jpg

但這個過程在初始化階段會存在部分幀中的響應延遲,所以稱為這個過程為前向檢測,對於初始化后的軌跡可以使用相同的方法逆時序檢測若干幀以降低軌跡遺漏的響應。


總結

除了貢獻點外,論文存在的不足:

  • 沒有使用到運動信息,比如tracklet

  • 檢測和跟蹤是級聯的關系,並沒有交叉,而現實情況是檢測可以基於跟蹤的位置進行檢測。

  • 追蹤的時候使用所有的檢測響應,必將導致追蹤速度太慢。

  • 其他如文中綠色標注的問題



  1. Kalman Filter


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM