
論文源址:https://arxiv.org/abs/1811.11168
摘要
可變形卷積的一個亮點是對於不同幾何變化的物體具有適應性。但也存在一些問題,雖然相比傳統的卷積網絡,其神經網絡的空間形狀更接近於目標物體的形狀,但有時會超出ROI區域,從而引入不相關的圖像信息進而對提取的特征造成影響。為此,本文提出了改造后的可變形卷積,通過增加建模及更強的訓練來改善其聚焦圖像相關區域的能力。通過在網路中引入更多的可變形卷積,同時,引入調制機制來擴大可變形的范圍。為了有效的利用豐富的建模能力,通過一個proposed的特征模仿機制來指導網絡的訓練。有利於對一些特征的學習,這些特征反應目標聚焦及R-CNN特征的分類能力。
介紹
由尺寸,位置,視野,部分變形成為目標識別檢測中的一個挑戰。DCNv1 介紹了兩個模型,(1)可變形卷積:標准卷積網格采樣點的位置都是前面預處理feature map學習的偏移。(2)可變形RoIpooling,其中,偏移學習RoIPooling中的bins的位置。將上述兩個模型嵌入到神經網絡中可以按照目標物的特性進行特征表示,通過變形采樣及池化模式來適應目標物體的結構。基於上述方法,大幅度提高了目標檢測的效果。
為了理解可變形卷積,通過在VOC圖像上采樣點的位置上增加偏移,並可視化其引起的感受野的變化。觀察發現,激活單元的采樣位置多聚集在目標物體附近。然而,對目標物體的覆蓋並不准確,存在感興趣區域之外的采樣點。通過COCO數據集對圖像的空間支持做了深入的分析發現,上述覆蓋不准確的現象更加明顯,這些發現表明對可變形卷積學習還有更多的潛力。
本文提出的新型可變形卷積網絡,成為Deformable ConvNet V2,通過增強的建模能力來對可變形卷積進行學習。主要通過兩部分來增強模型:(1)擴大網絡中可變形卷積的使用。使用更多偏移學習的卷積層,使DCNv2在更廣的特征層級上進行采樣。(2)可變形卷積模塊的調制機制,每個采樣點被學習過的偏移及特征的幅度同時進行調制。因此,網絡能夠改變樣本點的空間分布,同時可以控制其相對影響。
為了進行有效的訓練,受神經網絡中知識蒸餾相關工作的啟發。本文利用了“教師”網絡,在進行訓練時,其提供相應的指導。本文使用R-CNN作為教師網絡。由於R-CNN用於對crop后的圖像內容進行分類的網絡,因此,不受感興趣區域之外的信息影響。DCNv2為了模仿這個屬性,在訓練時增加了一個“特征模仿損失”,用於學習與R-CNN一致的相關特征。基於此方法,增強后的可變形采樣為DCNv2提供了較強的訓練信號。
經過上述改變后,DCNv2仍為輕量級同時可以嵌入到常規網絡中,本文主要嵌在Faster R-CNN及mask R-CNN上,在COCO數據集的檢測和分割任務上進行實驗,均有較大改進。
可變形網絡性能分析
空間支持的可視化:為了更好的理解可變形卷積,本文通過有效感受野,有效采樣點位置及錯誤邊界的顯著區域,可視化了網絡節點的空間支持性。上述三種模態為底層圖像區域提供了不同而且互補的視角,有助於增強節點的響應。
1.有效感受野:對於一個網絡中的節點,感受野中所有的像素都對響應有同等貢獻。貢獻度的差異由有效感受野的值表示,其值由相對圖像中每個像素點的強度擾動引起的節點響應的梯度計算得到。利用感受野來檢測網絡節點中的獨立像素的相對作用。但此標准對整個圖像區域的結構影響不起作用。
2.有效 采樣/bin 位置:可視化堆疊卷積層中采樣點的位置及RoIPooling 采樣bins來理解DCN的性能。然而,網絡中節點采樣位置的相對貢獻沒有顯示出來。本文將包含相對貢獻的采樣位置進行可視化,並計算網絡節點中對應采樣點/bins位置的梯度來代表貢獻強度。
3.誤差限制顯著區域:移除網絡圖像中的不發生作用的區域對網絡節點的響應不會產生影響。本文可以將節點的支持區域確定為最小圖像區域,在小的誤差范圍內提供與完整圖像相同的響應。將此最小圖像區域稱為誤差限制顯著區域。可以通過逐步遮蔽圖像的部分區域並計算節點響應來進行查找。誤差限制顯著區域利於不同網絡支持區域的比較。
可變形卷積網絡的空間支持:本文分析了可變形卷積在目標檢測中的視覺支持區域,作為backbone 的常規卷積網絡由帶aligned RoIpooling的Faster R-CNN及ResNet-50組成的目標檢測器。ResNet-50中的所有卷積層都應用在整個輸入圖像。conv5中的常規stride由32個像素減為16個像素,以增加feature map的分辨率。RPN接在ResNet-101的conv4的feature map上。將Fast R-CNN添加到conv5的后面。該Fast R-CNN由aligned RoIpooling層及兩個全連接層組成,后接分類及框回歸兩個分支。
本文按如下操作將目標檢測器變為可變形卷積部分。resnet conv5 stage中的3個3x3的卷積層替換為可變形卷積層。aligned RoIpooling替換為可變形RoIpooling。基於COCO數據集進行訓練及可視化操作。當偏移學習率設置為0時,可變形Faster R-CNN檢測器退化為常規的aligned RoIPooling的Faster R-CNN。
利用三種可視化模式,檢查conv5 stage最后一層節點的空間支持。如下圖,



觀察上圖,得出以下結論:(1)常規卷積在一定程度上對幾何變形進行建模。有關圖像內容的空間支持的變化證明了這一點。由於深度卷積網絡較強的表示能力,網絡權重的學習以適應某種程度的幾何變換。(2)通過引入可變形卷積,網絡的對幾何變化的建模能力大大增強。使空間支持更適應圖像的內容,前景的節點覆蓋整個目標,背景上的節點包含了更大的上小文信息。然而,空間支持的范圍可能是不精確的,前景節點的有效感受野和誤差界限顯着區域中包含與檢測無關的背景區域信息。(3)提出的三種空間支持的可視化具有更多的信息。常規的卷積網絡,沿着格子具有固定的采樣位置,但通過其權重來調整有效空間支持。可變形卷積網絡相似,其預測受學習的偏移及網絡權重共同影響。而單獨檢查采樣位置,可能會導致可變形卷積得到錯誤的結論。
下圖展示了每個RoI檢測頭的兩個全連接層節點的空間支持,后面直接接着兩個分類及框回歸分支。有效bins位置的可視化,目標前景中的bins從分類分支中得到更多的梯度,因此,對預測產生更多的影響。此結果同樣適用於aligned RoIPooling及可變形RoIPooling。在可變形的RoIPooling中,由於引入了可學習的bins offset,因此,相比aligned RoIPooling,可變形RoIPooling更多的bins覆蓋前景目標。來自相關的bins更多的信息可用於后續的Fast R-CNN。aligned RoIPooling及可變形RoIPooling中的誤差限制顯著區域並沒有完全關注目標的前景,表明RoI區域外的圖像內容對預測產生不利的影響。
雖然,相比常規卷積網絡可變形卷積提高了適應幾何變化的能力,但發現其空間支持可能會超出了感興趣區域。因此對可變形卷積改進,使其更專注於相關圖像內容,進而產生更高精度的檢測。

More Deformable ConvNets
堆疊更多的可變形卷積層
通過將常規卷積層替換為可變形卷積,堆疊更多的卷積層使整個網絡對幾何變化的建模能力進一步增強。本文將ResNet-50中的conv3,conv4,conv5的所有3x3卷積層替換為可變形卷積,因此網絡中有12層可變形卷積層。針對如VOC小規模的數據集當對疊超過3層時,性能就會發生飽和。實驗發現,替換resnet中的conv3-conv5的卷積層可以基於COCO數據集在准確率及效率上取得最好的結果。
可變形模塊的調制
為了增強可變形卷積網絡操縱空間支持區域的能力,引入了調制機制。可變形卷積模塊不僅可以調整感知輸入特征的偏移,而且可以調制來自不同空間位置/bins的輸入特征幅度。極端條件下,可以設置特征幅度為0,來決定不接受來自特定位置/bins的信號。因此,來自對應空間位置的圖像內容將顯著減少模型的輸出,甚至對輸出不產生作用。因此,調制機制為網絡增加了一個自由度,來調整支持區域。
給定一個具有K個采樣位置的卷積核,w k,p k代表第k個位置的權重及預定義的偏移。比如K=9,及
代表一個大小為3x3的卷積核,dilation為1,x(p),y(p)分別代表p位置處的輸入feature maps x的特征,輸出feature maps y的特征。調制可變形卷積如下表示,

Δpk和Δmk都是通過在相同的輸入feature map x上應用的分離卷積層得到的。該卷積層具有與當前卷積層相同分辨率及dilation,輸出通道為3K,前面的2K通道,對應偏移的學習
,剩余的K個通道送入后面的Sigmoid層來獲得調制尺寸
,分離卷積層中的卷積核初始化為0, ∆pk 與∆mk的初始值分別為0及0.5.用於偏移學習及調制增加的卷積層的學習率設置為當前層的0.1倍。
調制的可變形RoIPooling 層與此相似,對於一個輸入的RoI,RoIpooling 將其分為K個空間bins(如7x7) ,每個bin,應用偶數采樣間隔的網格(比如2x2)。 對網格進行平均操作作為bin的輸出。 ∆pk 及∆mk作為第k個bin的可學習偏移量,及調制尺寸。輸出合並特征y(k)如下式,∆pk 與 ∆mk由輸入feature map上的分支產生。在此分支上,RoIpooling 產生RoI的features,后接兩個1024維的全連接層(由標准方差為0.01的標准高斯分布初始化)。在RoIpoolIng的頂部存在額外的全連接層輸出通道數為3K,前2K為標准化后可學習的偏移,其中與RoI的寬和高進行點乘來獲得
,剩余的K通道通過一個sigmoid層來標准化得到
,增加用來對偏移量進行學習的全連接層的學習率與當前層的學習率相同。

R-CNN 特征的模仿
對於常規的卷積網絡和可變形的卷積網絡 ,對於每個RoI 分類節點的誤差限制顯著區域都會超出感興趣區域,進而影響特征的提取,從而影響檢測的結果。有人發現冗余的上下文信息是Faster R-CNN檢測出錯的原因。提出結合R-CNN及Faster R-CNN二者的分類scores作為最終的檢測scores。由於R-CNN的分類score主要來自於輸入的RoI中剪裁的圖像內容,因此,結合起來解決冗余的上下文問題並提高檢測精度。然而,由於R-CNN及Faster R-CNN在訓練及推理過程中都有所應用,因此,結合的系統速度較慢。
同時,可變形卷積十分利於適應支持區域的調整。DCNv2,調制可變形RoIPooling模塊可以通過簡單的設置bins的調制尺寸來消除冗余的上下文信息。然而實驗發現,即使是調制的可變形卷積,Faster R-CNN在訓練時,仍無法較好的學習特征表示。本文懷疑是由於Faster R-CNN的損失函數無法有效的驅動此特征表示的學習,需要額外的指導信息來促進訓練。本文在Deformable Faster R-CNN的per-RoI的特征上加入了一個特征模擬損失,迫使其與從裁剪圖像中提取的R-CNN特征相類似。輔助訓練的目的是為了使可變形Faster R-CNN像R-CNN一樣更多的學習到聚焦的特征表示。實驗發現,對於圖像背景上的負樣例RoIs,聚焦表示不是最合適的。對於背景區域,需要考慮更多的上下文信息,來避免產生錯誤的檢測。因此,特征模擬損失只在與目標ground truth有較大重復率的正樣例RoIs上執行。
訓練可變形Faster R-CNN的網絡結構如下圖所示,

除了有Faster R-CNN,還增加了用於特征模擬的R-CNN分支 ,輸入一個用於特征模擬的RoI b,通過裁剪及resize調整得到224x224的patch。R-CNN分支,在pathch進行操作得到一個大小為14x14空間分辨率的feature map,一個調制可變形RoIPooling在feature map上,其中輸入的RoI已經覆蓋整個圖像的patch(左上角為(0,0),寬高為patch的寬及高)。然后,后接兩個1024維的全連接層,產生R-CNN對於輸入patch的特征表示,表示為
,一個(C+1)路的softmax分類器接在后面用於分類。特征模擬損失包含,Faster R-CNN的特征表示
及R-CNN的特征表示
。特征模擬損失函數定義如下,其中Ω表示特征模擬訓練采樣的RoI集合。

基於SGD的訓練,輸入一張圖片,通過RPN生成32個區域候選框。並隨機挑選幾張送入Ω中。基於交叉熵損失的分類添加到R-CNN的頭部,網絡訓練由特征模擬損失,R-CNN的分類損失及Faster R-CNN的原始損失共同驅動。新引入的兩個損失項的權重初始化為Faster R-CNN的0.1倍。R-CNN及Faster R-CNN二者之間相關模塊的參數是共享的,包含backbone層,調制的可變形RoIpooling 模塊及后面的兩個全連接層。推理時,只有Faster R-CNN部分起作用,因此,不會引入用於R-CNN特征模擬的額外計算量。
實驗








參考
[1] R. Achanta, A. Shaji, K. Smith, A. Lucchi, P. Fua, S. S¨usstrunk, et al. Slic superpixels compared to state-ofthe-art superpixel methods. IEEE transactions on pattern analysisandmachineintelligence,34(11):2274–2282,2012. 9
[2] J. Ba and R. Caruana. Do deep nets really need to be deep? In NIPS, 2014. 2, 5, 7
[3] P. Battaglia, R. Pascanu, M. Lai, D. J. Rezende, et al. Interaction networks for learning about objects, relations and physics. In NIPS, 2016. 6
[4] D. Britz, A. Goldie, M.-T. Luong, and Q. Le. Massive exploration of neural machine translation architectures. In EMNLP, 2017. 6
