【論文解讀】行人檢測：What Can Help Pedestrian Detection?（CVPR'17）

本文轉載自查看原文 2018-04-14 10:55 1106 機器學習/ 論文研讀/ 計算機視覺

前言

本篇文章出自CVPR2017，四名作者為Tsinghua University，Peking University, 外加兩名來自Megvii（曠視科技）的大佬。文章中對能夠幫助行人檢測的extra features做了諸多分析，並且提出了HyperLearner行人檢測框架（基於Faster R-CNN改進），在KITTI&Caltech&Cityscapes數據集上實現了極為優秀的性能。
論文：http://openaccess.thecvf.com/content_cvpr_2017/papers/Mao_What_Can_Help_CVPR_2017_paper.pdf

正文

行人檢測出了什么問題？

無疑，行人檢測在步態識別、智能視頻監控和自動駕駛等領域發揮着重要作用。作者在文中指出，雖然近年來深度卷積網絡在通用目標檢測上取得了巨大的進步，但在行人檢測領域的研究仍有兩大主要挑戰：

（1）首先，相比一般的物體，行人與背景的辨識度更小。
這里寫圖片描述
如上圖，行人在雜亂的背景帶來難以區分的負樣本，如交通標志、郵筒等。它有非常相似的表觀特征與行人。沒有額外的語義上下文，使用這種低分辨率輸入的檢測器無法區分它們，從而導致召回率的降低和誤報的增加。

（2）如何准確定位每一個行人。行人在擁擠的場景中站得很近，給定位每個個體帶來挑戰。而對於深度卷積網絡來說，這個問題變得更糟了，因為卷積和池化生成高層次的語義激活映射，它們也模糊了靠得近的行人之間的邊界。

用額外特征改善行人檢測器

相關改進：
作者考慮用額外的特征來提升CNN-based pedestrian detectors的性能。這些特征歸類如下：
這里寫圖片描述
（1）apparent-to-semantic channels（如梯度、邊緣、像素分割、熱力信息通道）
（2）temporal channels （時間序列通道，在文中為相鄰時間幀中提取光流通道）
（3）depth channels （深度通道）
此外，作者對作為基本框架的Faster R-CNN做了相關改進：將原來anchor的 3 scales&3 ratios 增加到 5 scales&7 ratios，即一個anchor中心點可以對應為35個box；考慮到行人區域小，為了獲得更高分辨率的信息，除去了所有的conv5層。

整合方案：
如何將額外的特征送入網絡中？作者在VGG-16的主體網絡上添加了一個新的分支網絡。文章中介紹稱，這個網絡由一些卷積層（kernel size 3, padding 1 and stride 1）和池化層（kernel size 2 and stride 2）組成，輸出為128通道的特征，1/8原圖像的大小，而后與主體網絡中輸出的特征級聯起來，再送入RPN。如圖：
這里寫圖片描述
得出的結論是，在KITTI數據集上，所有的集成方法都提高了Faster R-CNN檢測器的性能。

比較分析：
作者進行了兩個尺度的實驗（1x and 2x，這里指的是圖像比例），下表為實驗結果。
這里寫圖片描述
在1x和2x實驗中，semantic information都表現出了更好的性能。在2x試驗中，高層語義信息但沒有低級的明顯特征（即熱圖通道）未能超過1X的實驗的效果。作者認為，當圖像以大的scale輸入時，低級別的細節將顯示出更大的重要性。隨后的驗證實驗也證實了這一想法。

HyperLearner

原理：
將不同通道的特征強行整合雖然有利於提升性能，但相對於原生的Faster R-CNN，在計算成本上變的更為昂貴。由於許多的通道特征都是可以用CNN生成的（如semantic segmentation and edge），於是，作者想要教會CNN生成通道特征，並且實現行人檢測。
這里寫圖片描述
HyperLearner的框架由四部分組成：提取原圖特征的body network，通道特征的網絡（CFN），區域建議網絡（RPN）和用於最終檢測認為的Fast R-CNN（FRCNN）網絡。
類似於HyperNet，作者提取提取層conv1_2，conv2_2，conv3_3和conv4_3的特征，並進行匯聚（黃色部分的特征圖）。而CFN通過一個完全卷積結構，直接讓聚合激活圖生成預測的通道特征圖。RPN和FRCNN與Faster R-CNN中的網絡同理。在訓練時，是需要一張額外的通道特征圖作為監督的。而在測試時，如圖所示，黃色的那部分特征圖其實就相當於其它通道提取的特征，與body network concat一下即可。

訓練：
作者采用了Multi-stage training的方法。整個訓練階段分為四個階段。
在第一階段，只有CFN的優化。詳細來說，修正所有參數（conv1_1到conv4_3），並放棄訓練RPN和FRCNN。
在第二階段，我們將整個body network（包括聚合激活圖卷積層）和CFN，只訓練RPN。
第三階段，CFN和RPN是固定的；只有FRCNN優化。
最后階段，所有層都是聯合優化的。

實驗

實驗結果可以說是非常暴力了。在KITTI&Caltech dataset&Cityscapes上都實現了極為優越的性能。

KITTI：
這里寫圖片描述

Cityscapes：
這里寫圖片描述

Caltech dataset：
這里寫圖片描述

總結

為了利用額外特征提升檢測器性能，同時解決計算成本問題，文中提出了一個新的框架HyperLearner，以共同學習通道特征和完成行人檢測。HyperLearner能夠學習通道特征的表示，同時不需要額外的推理輸入，在幾個數據集上有着顯著的改進。

感謝您的閱讀，文中的疏漏與錯誤，懇請批評指正。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 行人檢測(Pedestrian Detection)資源行人檢測(Pedestrian Detection)資源整合 CVPR2020論文解讀：3D Object Detection三維目標檢測輪廓檢測論文解讀 | Richer Convolutional Features for Edge Detection | CVPR | 2017 論文筆記：Ten years of pedestrian detection, what have we learned? CVPR2020 論文解讀：少點目標檢測論文閱讀之：Is Faster R-CNN Doing Well for Pedestrian Detection? What makes for effective detection proposals? 論文解析論文閱讀：Adaptive NMS: Refining Pedestrian Detection in a Crowd