CVPR 2019 行人檢測新思路:高級語義特征檢測取得精度新突破
點擊我愛計算機視覺置頂或標星,更快獲取CVML新技術
今天跟大家分享一篇昨天新出的CVPR 2019論文《High-level Semantic Feature Detection:A New Perspective for Pedestrian Detection》,作者將行人檢測問題轉化為高級語義特征檢測的問題,刷新了行人檢測精度的新高度!而且作者稱代碼將開源。
論文作者信息:
作者分別來自國防科技大學、中科院自動化所、阿聯酋起源人工智能研究院和地平線機器人公司。
算法思想
特征檢測是計算機視覺中常用算法,比如我們所熟知的邊緣檢測、Blob檢測,簡單點說就是檢測圖像中的感興趣部分。在傳統的計算機視覺視覺中,這往往被認為是low-level的操作。
隨着深度學習技術的發展,一般認為深度學習提取的特征具有高級語義特性。
作者認為行人檢測中行人的中心點(x,y坐標)和尺度(寬高)是一種高級語義特征,行人檢測完全可以轉化為這些語義特征的檢測。
如下圖所示:
輸入圖像經過卷積網絡,然后分成Center Heatmap計算和Scale Map 計算,得到的中心點坐標和寬高大小,即檢測出了行人。
看起來很簡單,但卻是很有效!
下圖是更詳細的網絡架構圖:
該算法最主要的兩部分為特征提取模塊和Detection Head模塊。
特征提取模塊對4個Stage的特征圖進行了串聯,以增強特征的多尺度表達能力。
Detection Head模塊,由256個3*3卷積和分支開來的兩個1*1卷積組成,然后分別成為最終的Center heatmap 和Scale Map。
將現有標注好的行人檢測數據集轉化為中心點和尺度標注的方法是顯而易見的,如下圖(圖中作者使用log(高度)作為行人尺度):
在Point Prediction 這一端,作者實際上嘗試了中心點、頂部頂點、底部頂點等三種方式,實驗結果如下圖上半部分,發現使用中心點效果最好,而且是遠好於另外兩者。
同樣在Scale Prediction這一端,作者嘗試了預測高度、寬度和二者都預測。發現只預測高度的效果最好(此時設置固定寬高比0.41)。
實驗結果
下面三張圖是在Caltech數據集上的實驗結果,該文提出的算法CSP均取得了最高的精度。
下圖為在CityPersons數據集上的實驗結果,CSP同樣取得了最好的結果。
另外,值得一提的是,該算法不僅僅適用於行人檢測!在作者的Github工程主頁上放出了使用該文算法在人臉檢測數據集WiderFace上的實驗結果,在驗證集和測試集上均取得了最高精度或者媲美最高精度的結果。
如下圖所示:(請點擊大圖查看)
讀完此文,CV君在想,人臉和行人的寬高比相對變化較小,該文提出的算法取得了很不錯的結果。那么對於通用目標檢測,寬高比變化比較大,該算法結果會如何呢?希望有進一步實驗結果出來。
希望該文對你有幫助!
論文地址:
https://arxiv.org/abs/1904.02948v1
代碼地址:
https://github.com/liuwei16/CSP
長按關注我愛計算機視覺
麻煩給我一個“在看”!