Fast R-CNN（理解）

本文轉載自查看原文 2018-11-04 12:15 26794 0814-深度學習/ 0821-文獻學習

掃碼關注下方公眾號："Python編程與深度學習"，領取配套學習資源，並有不定時深度學習相關文章及代碼分享。

　　經典的R-CNN存在以下幾個問題：

訓練分多步驟（先在分類數據集上預訓練，再進行fine-tune訓練，然后再針對每個類別都訓練一個線性SVM分類器，最后再用regressors對bounding box進行回歸，並且bounding box還需要通過selective search生成）
時間和空間開銷大（在訓練SVM和回歸的時候需要用網絡訓練的特征作為輸入，特征保存在磁盤上再讀入的時間開銷較大）
測試比較慢（每張圖片的每個region proposal都要做卷積，重復操作太多）

　　在Fast RCNN之前提出過SPPnet來解決R-CNN中重復卷積問題，但SPPnet仍然存在與R-CNN類似的缺陷：

　　因此，該文提出的Fast RCNN便是解決上述不足，在保證效果的同時提高效率。基於VGG16的Fast RCNN模型在訓練速度上比R-CNN快大約9倍，比SPPnet快大約3倍；測試速度比R-CNN快大約213倍，比SPPnet快大約10倍，在VOC2012數據集上的mAP大約為66%。

　　fast R-CNN模型的流程圖如下：

　　由於region proposal的尺度各不相同，而期望提取出來的特征向量維度相同，因此需要某種特殊的技術來做保證。ROIPooling的提出便是為了解決這一問題的。其思路如下：

　　訓練過程中每個mini-batch包含2張圖像和128個region proposal（即ROI，64個ROI/張），其中大約25%的ROI和ground truth的IOU值大於0.5（即正樣本），且只通過隨機水平翻轉進行數據增強。

　　多損失融合（分類損失和回歸損失融合），分類采用log loss（即對真實分類的概率取負log，分類輸出K+1維），回歸的loss和R-CNN基本一樣。

　　總的損失函數如下：

$$L(p,u,t^u,v)=L_{cls}(p,u)+\lambda [u\geqslant 1]L_{loc}(t^u,v)$$

　　分類損失函數如下：

$$L_{cls}(p,u)=-log\ p_u$$

　　回歸損失函數如下：

$$L_{loc}(t^u,v)=\sum_{i\epsilon \{x,y,w,h\}}smooth_{L_1}(t_i^u-v_i)$$

　　其中有：

$$smooth_{L_1}(x)=\left\{\begin{matrix}0.5x^2\ \ \ \ \ \ if\ |x|< 1\\|x|-0.5\ \ otherwise\end{matrix}\right.$$

　　由於卷積層計算針對的是一整張圖片，而全連接層需要對每一個region proposal都作用一次，所以全連接層的計算占網絡計算的將近一半（如下圖）。作者采用SVD來簡化全連接層計算。

　　圖片引用自博客。

　　圖片引用自博客。

卷積不再是重復對每一個region proposal，而是對於整張圖像先提取了泛化特征，這樣子減少了大量的計算量（注意到，R-CNN中對於每一個region proposal做卷積會有很多重復計算）
ROIPooling的提出，巧妙的解決了尺度放縮的問題
將regressor放進網絡一起訓練，同時用softmax代替SVM分類器，更加簡單高效