行人檢測在計算機視覺領域的許多應用中起着至關重要的作用,例如視頻監控、汽車駕駛員輔助系統、人體的運動捕捉系統等.圖像的行人檢測方法可以分成兩大類:輪廓匹配和表觀特征.表觀特征又被定義成圖像特征空間(也叫做描述算子),它可以分為整體法、局部法、特征點對法.
在整體法中,Papageorgiou和Poggio[1]提出了Haar小波(HWs)特征,並用SVM訓練行人,其中包括了行人的正面和背面.Viola和Jones[2, 3]采用級聯AdaBoost學習算法(即選擇超過一定閾值的弱分類器組成強分類器的算法)提取基本Haar-like特征和擴展的兩個Haar-like特征,用於視頻監控的行人檢測.Levi和Weiss[4]則提出邊緣方向直方圖(edge orientation histograms,簡稱EOHs)進行人臉檢測.EOHs先計算圖像梯度強度,然后按梯度方向等分成K個區間,而特征的表示是通過方向間的統計比得到的一個實數值.Haar-like和EOHs都可以通過圖像積分圖方法加快運算速度.
Dalal和Triggs等人[5]提出了梯度方向直方圖特征(histogram of oriented gradient,簡稱HOG).HOG基於梯度信息並允許塊間相互重疊,因此對光照變化和偏移不敏感,能有效地刻畫人體的邊緣特征.然而,HOG也有其缺點:特征維度高,大量的重疊和直方圖統計,使得特征的計算速度慢,進而影響實時性;遮擋處理能力較差;未利用顏色、形狀和紋理等特征.針對這些缺點,近年來一些研究者提出了更多[6, 7, 8, 9]的行人特征,有COV,Integral Channel Feature,ACF,GGP等.
Chen等人[10]提出韋伯特征(Weber local descriptor,簡稱WLD).WLD由兩部分組成:激勵(differential excitation)和方向(orientation),其充分利用人類視覺機制韋伯定理,對明暗變化和噪聲干擾有一定的魯棒性,缺點是方向部分計算復雜.
局部法的主要思想是將人體看成是部位的組合,該方法要解決兩個問題:構造有效的部位檢測器和建模部位間的幾何關系.Mohan等人[11]將人體划分為頭、下半身、左右胳膊這4個部位,取各個部位分類器的響應值作為支持向量機的輸入,構建一個組合的多層次分類器來檢測行人.
Edgelet特征描述的是人體的輪廓特征,但是它描述的是人體局部輪廓的特征,包括的形狀有直線、弧線等.它將人體分為幾個部分來訓練,比如全身、頭肩部、腿部和軀干部等,每個部分都使用adaboost算法訓練一個強分類器;在分類時,利用4個部分的聯合概率進行決策.該算法采用的是人體的局部特征,所以在出現遮擋的情況下仍然有很好的表現,缺點是特征的計算比較復雜.
Wu[12]提取圖像的edgelet特征用於檢測靜態圖像中的人體,對組成人體的各個部分分別建立模型,每一個edgelet描述人體的某個部位的輪廓,然后再用adaboost算法篩選出最有效的一組edgelet來描述人的整體.
Wu定義了3種edgelet,包括直線型、弧形和對稱型.每一個edgelet由一組邊緣點構成,是一條具有一定形狀和位置的線段.對於圖像中任意的位置,根據該位置是否具有和某edgelet形狀相似的邊緣得到一個響應值.如果邊緣的形狀與edgelet越相似,那么響應值就越高.
這類方法分別檢測窗口的局部區域,然后再綜合這些區域的檢測結果來做最終的判決.優點在於能更好地處理遮擋以及行人姿勢的多樣性,主要問題在於如何定義局部以及如何整合來自多個部位檢測器的信息.
特征點對法是將行人檢測問題視為一個廣義的霍夫變換:首先,通過局部特征檢測器來尋找關鍵點;然后,在關鍵點的周圍選取一個固定大小的圖像塊,通過聚類、隨機森林或者最大間隔等方法建立圖像塊的空間分布模式;最后,通過霍夫投票方式尋找圖像中的行人位置.典型的方法是David Lowe提出的SIFT特征[13].
無論是整體、局部還是特征點對法,核心的問題是如何有效表示行人的整體特征、部位特征或者局部塊特征.方向梯度直方圖特征是目前廣泛使用的行人特征表示,但是方向梯度無法刻畫人眼視覺敏感度,信息冗余度大.本文針對這一缺點,在中心變換直方圖[14]特征(census transform histogram,簡稱CENTRIST)的基礎上,提出一種顯著性紋理結構特征,與CENTRIST類似於局部二值模式直方圖不同,該特征融合了人眼視覺的心理物理學規律,能更好地實現光照波動、背景雜亂等道路環境下的行人檢測.
[1] Papageorgiou C, Poggio T. A trainable system for object detection. Int’l Journal of Computer Vision, 2000,38(1):15-33 .
[2] Viola P, Jones MJ, Snow D. Detecting pedestrians using patterns of motion and appearance. In: Proc. of the Int’l Conf. on Computer Vision. 2003. 734-741 .
[3] Jones MJ, Snow D. Pedestrian detection using boosted features over many frames. In: Proc. of the IEEE Conf. Computer Vision and Pattern Recognition. 2008. 1-4 .
[4] Levi K, Weiss Y. Learning object detection from a small number of examples: The importance of good features. In: Proc. of the IEEE Conf. on Computer Vision and Pattern Recognition. 2004.53-60 .
[5] Dalal N, Triggs B. Histograms of oriented gradients for human detection. In: Proc. of the IEEE Conf. on Computer Vision and Pattern Recognition. 2005.886-893 .
[6] Tuzel O, Porikli F, Meer P. Pedestrian detection via classification on riemannian manifolds. IEEE Trans. on PAMI, 2008,30(10): 1713-1727 .
[7] Dollar P, Tu Z, Perona P, Belongie S. Integral channel features. In: Proc. of the British Machine Vision Conf. 2009. 1-11.
[8] Gao W, Ai H, Lao S. Adaptive contour features in oriented granular space for human detection and segmentation. In: Proc. of the IEEE Conf. on Computer Vision and Pattern Recognition. 2009. 1786-1793 .
[9] Liu YZ, Shan SG, Zhang WC, Chen XL, Gao W. Granularity-Tunable gradients partition (GGP) descriptors for human detection. In: Proc. of the IEEE Conf. on Computer Vision and Pattern Recognition. 2009.1255-1262 .
[10] Chen J, Shan SG, He C, Zhao GY. WLD: A robust local image descriptor. IEEE Trans. on Pattern Analysis and Machine Intelligence, 2010, 32(9):1705-1720 .
[11] Mohan A, Papageorgiou C, Poggio T. Example-Based object detection in images by components. IEEE Trans. on Pattern Analysis and Machine Intelligence, 2001,23(4):349-361
[12] Wu B, Nevatia R, Li Y. Segmentation of multiple, partially occluded objects by grouping, merging, assigning part detection responses. Int’l Journal of Computer Vision, 2009,82:185-204 .
[13] Lowe DG. Distinctive image features from scale-invariant keypoints. Int’l Journal of Computer Vision, 2004,60(2):91-l10 .
[14] Wu JX, Rehg JM. CENTRIST: A visual descriptor for scene categorization. IEEE Trans. on Pattern Analysis and Machine Intelligence, 2011,33(8):1489-1501 .