R-FCN詳解

本文轉載自查看原文 2021-11-25 09:38 132 目標檢測論文/ 目標檢測論文閱讀

論文題目：R-FCN: Object Detection via Region-based Fully Convolutional Networks

論文鏈接：論文鏈接

論文代碼：Caffe版本鏈接地址；Python版本鏈接地址；Deformable R-FCN版本鏈接地址;

一、R-FCN初探

1. R-FCN貢獻

提出Position-sensitive score maps來解決目標檢測的位置敏感性問題；
區域為基礎的，全卷積網絡的二階段目標檢測框架；
比Faster-RCNN快2.5-20倍（在K40GPU上面使用ResNet-101網絡可以達到 0.17 sec/image）;

整個R-FCN的結構

一個base的conv網絡如ResNet101, 一個RPN（Faster RCNN來的）,一個position sensitive的prediction層，最后的ROI pooling+投票的決策層

R-FCN的idea出發點（關鍵思想）

- 分類需要特征具有平移不變性，檢測則要求對目標的平移做出准確響應。現在的大部分CNN在分類上可以做的很好，但用在檢測上效果不佳。SPP，Faster R-CNN類的方法在ROI pooling前都是卷積，是具備平移不變性的，但一旦插入ROI pooling之后，后面的網絡結構就不再具備平移不變性了。因此，本文想提出來的position sensitive score map這個概念是能把目標的位置信息融合進ROI pooling。

對於region-based的檢測方法，以Faster R-CNN為例，實際上是分成了幾個subnetwork，第一個用來在整張圖上做比較耗時的conv，這些操作與region無關，是計算共享的。第二個subnetwork是用來產生候選的boundingbox（如RPN），第三個subnetwork用來分類或進一步對box進行regression（如Fast RCNN），這個subnetwork和region是有關系的，必須每個region單獨跑網絡，銜接在這個subnetwork和前兩個subnetwork中間的就是ROI pooling。我們希望的是，耗時的卷積都盡量移到前面共享的subnetwork上。因此，和Faster RCNN中用的ResNet（前91層共享，插入ROI pooling，后10層不共享）策略不同，本文把所有的101層都放在了前面共享的subnetwork。最后用來prediction的卷積只有1層，大大減少了計算量。

方法細節

Backbone architecture: ResNet 101——去掉原始ResNet101的最后一層全連接層，保留前100層，再接一個1*1*1024的全卷積層（100層輸出是2048，為了降維，再引入了一個1*1的卷積層）。

k^2(C+1)的conv: ResNet101的輸出是W*H*1024，用K^2(C+1)個1024*1*1的卷積核去卷積即可得到K^2(C+1)個大小為W*H的position sensitive的score map。這步的卷積操作就是在做prediction。k = 3，表示把一個ROI划分成3*3，對應的9個位置分別是：上左（左上角），上中，上右，中左，中中，中右，下左，下中，下右（右下角），如圖Figuire 3。

k^2(C+1)個feature map的物理意義: 共有k*k = 9個顏色，每個顏色的立體塊（W*H*(C+1)）表示的是不同位置存在目標的概率值（第一塊黃色表示的是左上角位置，最后一塊淡藍色表示的是右下角位置）。共有k^2*(C+1)個feature map。每個feature map，z(i,j,c)是第i+k(j-1)個立體塊上的第c個map（1<= i,j <=3）。(i,j)決定了9種位置的某一種位置，假設為左上角位置（i=j=1），c決定了哪一類，假設為person類。在z(i,j,c)這個feature map上的某一個像素的位置是（x,y），像素值是value，則value表示的是原圖對應的(x,y)這個位置上可能是人（c=‘person’）且是人的左上部位（i=j=1）的概率值。

ROI pooling: 就是faster RCNN中的ROI pooling，也就是一層的SPP結構。主要用來將不同大小的ROI對應的feature map映射成同樣維度的特征，思路是不論對多大的ROI，規定在上面畫一個n*n 個bin的網格，每個網格里的所有像素值做一個pooling（平均），這樣不論圖像多大，pooling后的ROI特征維度都是n*n。注意一點ROI pooling是每個feature map單獨做，不是多個channel一起的。

ROI pooling的輸入和輸出：ROI pooling操作的輸入（對於C+1個類）是k^2*(C+1)*W' *H'（W'和H'是ROI的寬度和高度）的score map上某ROI對應的那個立體塊，且該立體塊組成一個新的k^2*(C+1)*W' *H'的立體塊：每個顏色的立體塊（C+1）都只摳出對應位置的一個bin，把這k*k個bin組成新的立體塊，大小為（C+1）*W'*H'。例如，下圖中的第一塊黃色只取左上角的bin，最后一塊淡藍色只取右下角的bin。所有的bin重新組合后就變成了類似右圖的那個薄的立體塊（圖中的這個是池化后的輸出，即每個面上的每個bin上已經是一個像素。池化前這個bin對應的是一個區域，是多個像素）。ROI pooling的輸出為為一個（C+1）*k*k的立體塊，如下圖中的右圖。更詳細的有關ROI pooling的操作如公式（1）所示：

vote投票：k*k個bin直接進行求和（每個類單獨做）得到每一類的score，並進行softmax得到每類的最終得分，並用於計算損失

損失函數：和faster RCNN類似，由分類loss和回歸loss組成，分類用交叉熵損失（log loss），回歸用L1-smooth損失

訓練的樣本選擇策略：online hard example mining (OHEM，參考文獻1) 。主要思想就是對樣本按loss進行排序，選擇前面loss較小的，這個策略主要用來對負樣本進行篩選，使得正負樣本更加平衡。

訓練細節：
- decay = 0.0005
- momentum = 0.9
- single-scale training: images are resized such that the scale (shorter side of image) is 600 pixels [6, 18].
- 8 GPUs (so the effective mini-batch size is 8×), each GPU holds 1 image and selects B = 128 RoIs for backprop.
- fine-tune learning rate = 0.001 for 20k mini-batches, 0.0001 for 10k mini-batches on VOC.
- the 4-step alternating training between training RPN and training R-FCN.（類似於Faster RCNN）
- 使用atrous（hole算法）

實驗結果

VOC2007和VOC2010上與Faster R-CNN的對比：R-FCN比Faster RCNN好！

深度影響對比：101深度最好！

候選區域選擇算法對比：RPN比SS，EB好！（其中EB見：）

COCO庫上與Faster R-CNN的對比：R-FCN比Faster RCNN好！

效果示例：

總結

R-FCN是在Faster R-CNN的框架上進行改造，第一，把base的VGG16換車了ResNet，第二，把Fast R-CNN換成了先用卷積做prediction，再進行ROI pooling。由於ROI pooling會丟失位置信息，故在pooling前加入位置信息，即指定不同score map是負責檢測目標的不同位置。pooling后把不同位置得到的score map進行組合就能復現原來的位置信息。

參考文獻

A. Shrivastava, A. Gupta, and R. Girshick. Training region-based object detectors with online hard example mining. In CVPR, 2016.
目標檢測方法——R-FCN - lilicao - 博客園 (cnblogs.com)
深度學習-目標檢測（R-FCN） - 天道酬勤、 - 博客園 (cnblogs.com)

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 論文--R-FCN R-FCN論文翻譯目標檢測方法——R-FCN 目標檢測網絡之 R-FCN R-FCN：基於區域的全卷積網絡來檢測物體基於區域的全卷積神經網絡（R-FCN）簡介 R-FCN、SSD、YOLO2、faster-rcnn和labelImg實驗筆記（轉） RCNN系列、Fast-RCNN、Faster-RCNN、R-FCN檢測模型對比『計算機視覺』R-FCN：Object Detection via Region-based Fully Convolutional Networks R-CNN,SPP-NET, Fast-R-CNN,Faster-R-CNN, YOLO, SSD, R-FCN系列深度學習檢測方法梳理

R-FCN詳解

整個R-FCN的結構

R-FCN的idea出發點（關鍵思想）

方法細節

實驗結果

VOC2007和VOC2010上與Faster R-CNN的對比：R-FCN比Faster RCNN好！

深度影響對比：101深度最好！

候選區域選擇算法對比：RPN比SS，EB好！（其中EB見： ）

COCO庫上與Faster R-CNN的對比：R-FCN比Faster RCNN好！

效果示例：

總結

參考文獻

免責聲明！

候選區域選擇算法對比：RPN比SS，EB好！（其中EB見：）