創新點:基於Faster-RCNN使用更高效的基礎網絡
1.1 創新點
PVAnet是RCNN系列目標方向,基於Faster-RCNN進行改進,Faster-RCNN基礎網絡可以使用ZF、VGG、Resnet等,但精度與速度難以同時提高。PVAnet的含義應該為:Performance Vs Accuracy,意為加速模型性能,同時不丟失精度的含義。主要的工作再使用了高效的自己設計的基礎網絡。該網絡使用了C.ReLU、Inception、HyperNet以及residual模塊等技巧。整體網絡結構如圖1所示。
2.1 C.ReLU
C.ReLU的作者觀察基礎網絡卷積層參數,發現低層卷積核成對出現(參數互為相反數),因此,作者減小輸出特征圖個數為原始一半,另一半直接取相反數得到,再將兩部分特征圖連接,從而減少了卷積核數目。關於C.ReLU參考博客與論文。C.ReLU的模塊結構如圖2所示。
2.2 Inception模塊
作者發現googlenet中Inception模塊由於具有多種感受野的卷積核組合,因此能夠適應多尺度目標的檢測,作者使用基於Inception模塊組合並且組合跳級路特征進行基礎網絡后部分特征的提取。
2.3 HyperNet
將conv3中原圖1/8特征圖、conv3中原圖1/16特征圖、conv3中原圖1/32特征圖連接來增加最終特征圖中多尺度信息。其中,conv3中特征圖被下采樣,conv5中特征圖被線性插值上采樣。如圖1所示。
3.1 實驗過程
除了以上基礎網絡的區別:
(1) PVAnet使用的anchor與faster-rcnn不同,PVA在每個特征點上使用了25個anchor(5種尺度,5種形狀)。
(2) 並且RPN網絡不使用全部特征圖就能達到很好的定位精度,RPN網絡只用生成200個proposals;
(3) 使用VOC2007、VOC2012、COCO一起訓練模型;
(4) 可以使用類似於Fast-RCNN的truncated SVD來加速全連接層的速度;
(5) 使用投票機制增加訓練精度,投票機制應該參考於R-FCN