論文原址:https://arxiv.org/abs/1810.08425
github:https://github.com/KimSoybean/ScratchDet
摘要
當前較為流行的檢測算法是在經典的大規模分類的數據集上進行微調,但這樣做會存在兩個問題:
(1)分類任務與檢測任務二者之間對位置的敏感性差異較大,進而造成了優化目標之間存在偏差。
(2)目標檢測的結構受制於分類模型,進而造成對模型修改上的不便。
為了應對上面的這兩個問題,從頭重新訓練檢測器是一種可行的方法。但這種方法又存在的一個問題是,相比預訓練過的模型,此方法的性能要差一些,尤其是在訓練時的收斂問題上。本文,采用從頭重新訓練網絡的方法,分析了優化的方法發現,從頭開始訓練檢測器所忽略的一個點時BatchNorm。利用BatchNorm的穩定及可預測的梯度,檢測器可以從頂部開始進行穩定訓練,同時在不同網絡結構的基礎上取得較好的性能。本文提出了Root-ResNet backbone網絡,充分利用原始圖片的信息。
介紹
本文研究了針對基於隨機初始化網絡的優化方法因素,發現BatchNorm重新調整了優化問題的參數分布,使其外形更加平滑同時減少了internal covariate shift。基於此,本文認為從頭訓練檢測網絡收斂性較差的主要原因是缺少BN操作。因此,本文在backbone及檢測子網絡的頭部都添加了BN層,發現添加BN后,從頭開始訓練的檢測網絡要比預訓練的效果要好,進而可以不依賴於預訓練網絡對網絡結構進行調整。實驗發現,第一層卷積的下采樣stride也對目標檢測的效果產生重要的影響。基於這一點,本文通過引入一個root block來設計檢測器的結構。root block可以獲得detector feature map中豐富的信息,提高了對小目標的准確率。
本文主要貢獻:
(1)本文設計了基於scratch訓練的single-shot目標檢測網絡-ScratchDet,該網絡結合了BN操作有利於網絡的收斂,此方法適用於任意類型的網絡結構。
(2)引入了新的backbone Root-ResNet,提高了小目標的檢測效果。
(3)ScratchDet的檢測表現效果較為強勁。
ScratchDet
1.BatchNorm for Train-from-Scratch
本文在SSD上添加了BatchNorm,原生SSD中是不存在BN層的。在backbone的每一層中添加了BN層,然后,從頭開始訓練。發現提升了5.2%的mAP,同時使優化曲線更加的平滑,進而可以使用更大的學習率進行優化。
在檢測網絡的head子網絡添加BatchNorm,本文經過實驗發現,在原生SSD上基於大學習率進行訓練,容易造成梯度爆炸。在網絡的檢測頭的子網絡添加BatchNorm可以使訓練的loss的外形更加平滑。使mAP從67.6%提升至71.0%.
在整個網絡中添加BN層,其實驗結果比對如下。
2.BackBone Network
backbone為ResNet及VGG的性能:本文研究了backbone第一層卷積的downsampling操作的影響,實驗發現,第一層的downsampling操作對小目標的檢測造成了不利的影響。基於上述分析,本文重新設計了目標檢測的backbone,為了克服Resnet中的不足並保留其分類的優秀性能。本文設計了Root-ResNet。結構如下:
本文移除了第一層卷積的下采樣操作並將7x7的卷積核用幾個3x3的卷積核進行替換。隨着從Image中獲得更豐富的輸入信息,網絡可以挖掘圖像中的局部信息,進而可以檢測小目標物體。此外,將SSD后用於獲得不同尺寸大小信息的四個卷積blocks替換為四個殘差塊。每個殘差塊包含兩個分支,一個為1x1 stride為2的卷積層,另兩個為stride分別為2和1的3x3的卷積核.每個卷積核的輸出通道數設置為128.
實驗
Reference
[1] S. Bell, C. Lawrence Zitnick, K. Bala, and R. Girshick.Inside-outside net: Detecting objects in context with skip pooling and recurrent neural networks. In CVPR, 2016.
[2] K. Chen, J. Pang, J. Wang, Y. Xiong, X. Li, S. Sun,W. Feng, Z. Liu, J. Shi, W. Ouyang, C. C. Loy, and D. Lin.mmdetection. https://github.com/open-mmlab/mmdetection, 2018.
[3] B. Cheng, Y. Wei, H. Shi, R. Feris, J. Xiong, and T. Huang.Revisiting rcnn: On awakening the classification power of faster rcnn. In ECCV, 2018.
[4] J. Dai, Y. Li, K. He, and J. Sun. R-fcn: Object detection via region-based fully convolutional networks. In NIPS, 2016.