【論文解讀】行人檢測:What Can Help Pedestrian Detection?(CVPR'17)


前言

本篇文章出自CVPR2017,四名作者為Tsinghua University,Peking University, 外加兩名來自Megvii(曠視科技)的大佬。 文章中對能夠幫助行人檢測的extra features做了諸多分析,並且提出了HyperLearner行人檢測框架(基於Faster R-CNN改進),在KITTI&Caltech&Cityscapes數據集上實現了極為優秀的性能。
論文:http://openaccess.thecvf.com/content_cvpr_2017/papers/Mao_What_Can_Help_CVPR_2017_paper.pdf

正文

行人檢測出了什么問題?

無疑,行人檢測在步態識別、智能視頻監控和自動駕駛等領域發揮着重要作用。作者在文中指出,雖然近年來深度卷積網絡在通用目標檢測上取得了巨大的進步,但在行人檢測領域的研究仍有兩大主要挑戰:

(1)首先,相比一般的物體,行人與背景的辨識度更小。
這里寫圖片描述
如上圖,行人在雜亂的背景帶來難以區分的負樣本,如交通標志、郵筒等。它有非常相似的表觀特征與行人。沒有額外的語義上下文,使用這種低分辨率輸入的檢測器無法區分它們,從而導致召回率的降低和誤報的增加。

(2)如何准確定位每一個行人。行人在擁擠的場景中站得很近,給定位每個個體帶來挑戰。而對於深度卷積網絡來說,這個問題變得更糟了,因為卷積和池化生成高層次的語義激活映射,它們也模糊了靠得近的行人之間的邊界。

用額外特征改善行人檢測器

相關改進:
作者考慮用額外的特征來提升CNN-based pedestrian detectors的性能。這些特征歸類如下:
這里寫圖片描述
(1)apparent-to-semantic channels(如梯度、邊緣、像素分割、熱力信息通道)
(2)temporal channels (時間序列通道,在文中為相鄰時間幀中提取光流通道)
(3)depth channels (深度通道)
此外,作者對作為基本框架的Faster R-CNN做了相關改進:將原來anchor的 3 scales&3 ratios 增加到 5 scales&7 ratios,即一個anchor中心點可以對應為35個box;考慮到行人區域小,為了獲得更高分辨率的信息,除去了所有的conv5層

整合方案:
如何將額外的特征送入網絡中?作者在VGG-16的主體網絡上添加了一個新的分支網絡。文章中介紹稱,這個網絡由一些卷積層(kernel size 3, padding 1 and stride 1)和池化層(kernel size 2 and stride 2)組成,輸出為128通道的特征,1/8原圖像的大小,而后與主體網絡中輸出的特征級聯起來,再送入RPN。如圖:
這里寫圖片描述
得出的結論是,在KITTI數據集上,所有的集成方法都提高了Faster R-CNN檢測器的性能。
這里寫圖片描述

比較分析:
作者進行了兩個尺度的實驗(1x and 2x,這里指的是圖像比例),下表為實驗結果。
這里寫圖片描述
在1x和2x實驗中,semantic information都表現出了更好的性能。在2x試驗中,高層語義信息但沒有低級的明顯特征(即熱圖通道)未能超過1X的實驗的效果。作者認為,當圖像以大的scale輸入時,低級別的細節將顯示出更大的重要性。隨后的驗證實驗也證實了這一想法。

HyperLearner

原理:
將不同通道的特征強行整合雖然有利於提升性能,但相對於原生的Faster R-CNN,在計算成本上變的更為昂貴。由於許多的通道特征都是可以用CNN生成的(如semantic segmentation and edge),於是,作者想要教會CNN生成通道特征,並且實現行人檢測。
這里寫圖片描述
HyperLearner的框架由四部分組成:提取原圖特征的body network,通道特征的網絡(CFN),區域建議網絡(RPN)和用於最終檢測認為的Fast R-CNN(FRCNN)網絡。
類似於HyperNet,作者提取提取層conv1_2,conv2_2,conv3_3和conv4_3的特征,並進行匯聚(黃色部分的特征圖)。而CFN通過一個完全卷積結構,直接讓聚合激活圖生成預測的通道特征圖。RPN和FRCNN與Faster R-CNN中的網絡同理。在訓練時,是需要一張額外的通道特征圖作為監督的。而在測試時,如圖所示,黃色的那部分特征圖其實就相當於其它通道提取的特征,與body network concat一下即可。

訓練:
作者采用了Multi-stage training的方法。整個訓練階段分為四個階段。
在第一階段,只有CFN的優化。詳細來說,修正所有參數(conv1_1到conv4_3),並放棄訓練RPN和FRCNN。
在第二階段,我們將整個body network(包括聚合激活圖卷積層)和CFN,只訓練RPN。
第三階段,CFN和RPN是固定的;只有FRCNN優化。
最后階段,所有層都是聯合優化的。

實驗

實驗結果可以說是非常暴力了。在KITTI&Caltech dataset&Cityscapes上都實現了極為優越的性能。

KITTI:
這里寫圖片描述

Cityscapes:
這里寫圖片描述

Caltech dataset:
這里寫圖片描述

總結

為了利用額外特征提升檢測器性能,同時解決計算成本問題,文中提出了一個新的框架HyperLearner,以共同學習通道特征和完成行人檢測。HyperLearner能夠學習通道特征的表示,同時不需要額外的推理輸入,在幾個數據集上有着顯著的改進。


感謝您的閱讀,文中的疏漏與錯誤,懇請批評指正。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM