Learning Cross-Modal Deep Representations for Robust Pedestrian Detection
2017-04-11 19:40:22
Motivation:
本文主要是考慮了在光照極端惡劣的情況下,如何充分的利用 thermal data 進行協助學習提升 可見光圖像的 特征表達能力,而借鑒了 ICCV 2015 年的一個文章,稱為:監督遷移的方法,以一種模態的特征為 label,以監督學習的方式實現無監督學習。說到這里可能比較讓人糊塗,什么叫:以監督學習的方式實現無監督學習?說道監督學習,因為這里 training RGB modal 是以監督學習的方式進行訓練的,因為標簽是以 thermal 提取出來的特征為調整的目標(稱為 target label)。說到無監督學習,其實這里沒有用到人工標注的數據,只是用到了網絡提取出來的 thermal feature, 而這就是比較好的地方了。這也是那個 Supervised Transfer 文章的主要賣點,而這里作者將其應用到 multi-modal 的情況下。
所以,很自然的就可以知道網絡的大致設計:
1. 首先要有特征的跨模態遷移,算是第一階段:
那么,可以看到上圖就是剛剛講的 監督學習的方式進行特征遷移的過程。
2. 有了這個增強的特征,我們就可以利用這個進行黑暗環境下的行人檢測了:
看到這個網絡的設計,主要是原始特征和后續增強特征的組合了,然后進行最終的 bounding box regression 以及 softmax 分類。
從而完成整個行人檢測算法。效果之所以有提升,主要在於第二個網絡提供了更好的 黑暗環境下從 thermal data 那里學習到的 feature。
這就是文章的主題思想了。。。。
作者在兩個數據集上做了相關的實驗。。。具體結果見原文了。
Reference:
1. Learning Cross-Modal Deep Representations for Robust Pedestrian Detection. In CVPR, 2017.
2. S. Gupta, J. Hoffman, and J. Malik. Cross modal distillation for supervision transfer. In CVPR, 2016.
3. J. Hoffman, S. Gupta, and T. Darrell. Learning with side information through modality hallucination. In CVPR, 2016