論文--R-FCN


 

R-FCN:  Object Detection via Region-based Fully Convolutional Networks

 

R-FCN 的網絡結構:

 

不同於之前的fast/faster R-CNN的region-based,paper中的new network是shared, fully convolutional 的網絡結構。

Paper是奔着節約計算的角度,因為r-cnn 系列的網絡結構分為兩部分,一部分是Shared Conv層,另一部分是針對region proposal的Conv+FC層,fast RCNN和faster RCNN做的工作是延長Shared Conv,縮小非共享的后面部分。

R-FCN做的是將regional proposal后面的Conv基本轉移到Shared Conv部分。 減少Conv計算。

 

隨着網絡深度的增加,網絡對location的敏感度也越來越低,這就是 translation-invariance。

 

 

 

1, structure

本paper做的跟faster RCNN的區別是:將Conv5層ROI-pooling之后的pooled feature maps ,不要再針對每一個ROI之后再進行Conv計算了。而是,將Conv5層進行fully convolutional layer, 得到 K^2*(c+1) x w x h的feature maps, 然后對該feature map 進行position-sensitive pooling 得到 k x k x (c+1) 大小的score map,之后做 average pooling (voting)得到 (c+1)的vector就可以放進 softmax判斷了,所以,feature map后面的不涉及到Conv層,計算量很小。

 

2, position-sensitive score maps

Position-sensitive score maps: 對最后一層Conv層得到的feature maps,對於每一個wxh 大小的RoI rectangle,一個bin的大小是 w/k * h/k , 最后產生 k^2 個bin,對於 (i,j)個bin,產生score maps的操作公式是:

 

 

上面所說的是針對category,而針對bounding boxes,類似,直接將C+1變為4即可, bounding box t = (tx, ty, tw, th)

 

3, training:

對於每一個ROI,loss是 cross-entropy loss和box regression loss的總和

 

Training method在本算法中可以很容易采用online hard example mining (OHEM), 對於一張image的N個proposals,選擇loss最大的B個proposal進行backpropagation,因為per-RoI的計算量極小可以忽略。

 

R-FCN的特點:

(1), 所有可以學習的參數都是都是 convolutional 且針對 fully feature maps

(2), RoI-pooling之后的score maps之后的計算沒有參數

(3),R-FCN的最后一個Conv層,其channel數跟 類別數C和 spatial grid describing relative positions K 相關,

 

總結:

(1), R-FCN可以說是faster-RCNN的一個再次升級

(2), 但是R-FCN的position-sensitive scores maps看起來適用性有限,paper也只給出了resnet101的版本而沒有vgg或者googlenet作為baseline。

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM