DCN v2


轉自:https://blog.csdn.net/u014380165/article/details/88072737

論文:Deformable ConvNets v2: More Deformable, Better Results

論文鏈接:https://arxiv.org/abs/1811.11168

這篇博客介紹個人非常喜歡的一篇目標檢測文章:DCN v2,也就是Deformable ConvNets論文的升級版,效果提升很明顯,思想很簡潔。主要的改進包括:
1、在特征提取網絡的更多層中引入deformable convolution結構,從后面的實驗來看,這個操作雖然簡單,但是效果提升非常明顯,只不過在v1論文中使用PASCAL VOC數據集,所以難以觀察到這部分提升。
2、改進deformable結構,我們知道不管是deformable convolution還是deformable RoI pooling,主要通過引入offset,使得特征提取過程能夠更加集中於有效信息區域,而這篇論文在v1的基礎上引入了modulation,modulation簡單而言就是權重,通過分配不同權重給經過offset修正后的區域,實現更加准確的特征提取。
3、第2點的想法很好,但是從作者的實驗來看(Table1或Table2的最后2行),僅僅通過第2點帶來的提升還是比較有限的,主要原因在於現有的損失函數難以監督模型對無關緊要的區域設置較小的權重,因此在模型訓練階段引入RCNN feature mimicking,這部分受論文Revisiting rcnn: On awakening the classification power of faster rcnn的啟發,不過實現方式不一樣,這篇文章通過聯合訓練RCNN網絡提供有效的監督信息,發揮modulation的權重作用,使得提取到的特征更加集中於有效區域,因此和第2點是緊密結合的。

首先看看這篇文章用到的3個可視化指標,參看Figure1,Figure1是關於常規卷積、DCNv1和DCNv2的對比圖,用來說明Deformable convolution的效果
1、effective sampling locations, 也就是有效的計算區域,這個在DCNv1論文中看得比較多了,簡而言之就是幾個卷積層疊加后從輸出中的某個點往前推算出參與該點計算的特征點區域,在Figure1中就是往前推算3層得到的圖,因此點數最多為9^3=729,常規卷積因為有重疊,所以看到的只有49個(a中第一行),可變卷積因為涉及越界,所以實際點數少於729,一般在200左右(b中第一行)。
2、effective receptive fields,也就是有效感受野,可以通過梯度來計算,不同於理論感受野。
3、error-bounded saliency region,表示當以完整的輸入圖像進行計算和只以輸入圖像的部分區域進行計算時,模型得到的輸出相同時的最小區域,簡而言之,這部分區域(saliency region)是對模型輸出影響較大的區域。
從Figure1中可以得到幾個結論
1、基於常規卷積層的深度網絡對於形變目標有一定的學習能力,比如(a)中的最后一行,基本上都能覆蓋對應的目標區域或者非目標區域,這主要歸功於深度網絡的擬合能力,這種擬合能力有點強行擬合的意思,所以才有DCN這種設計。
2、DCNv1對於形變目標的學習能力要比常規卷積強,能夠獲取更多有效的信息。比如(b)中的最后一行,當輸出點位置在目標上時(前2張圖),影響區域相比常規卷積而言更大。
3、DCNv2對於形變目標的學習能力比DCNv1更強,不僅能獲取更多有效的信息,而且獲取的信息更加准確,比如©中的最后一行,目標區域更加准確。因此簡單來講,DCNv1在有效信息獲取方面的recall要高於常規卷積,而DCNv2不僅有較高的recall,而且有較高的precision,從而實現信息的精確提取。
在這里插入圖片描述
Figure2是關於常規卷積、DCNv1和DCNv2的對比圖,用來說明Deformable RoI pooling的效果
這里涉及的effective bin location和Figure1中的effective sampling location含義類似,整體上(a)到(c)的實驗結果和Figure1中的實驗結果一致。(d)和(e)是在模型訓練階段引入的RCNN feature mimicking效果,通過對比(c)和(d)的最后一行圖就能明顯看出來當RoI在目標上時,(d)中的有效區域更加精確,當RoI不在目標上時,差別不大,這部分后面也有實驗證明(Table3)。那么(e)和(d)的對比能說明什么?因為(e)是在常規卷積網絡上添加RCNN feature mimicking進行聯合訓練,但(e)中的有效區域並不准確,原因就在於沒有引入modulation和offset,相當於僅有監督信息,但是沒有有效的執行點,這也是這篇論文比較有意思的地方。
在這里插入圖片描述

接下來大概介紹一下modulated deformable convolution,公式如下所示,△mk就是modulation要學習的參數,這個參數的取值范圍是[0,1],假如去掉這個參數,那么就是DCNv1中的deformable convolution。
在這里插入圖片描述
從論文來看,△pk,△mk都是通過一個卷積層進行學習,因此卷積層的通道數是3K,其中2K表示△pk,這和DCNv1的內容是一樣的,剩下K個通道的輸出通過sigmoid層映射成[0,1]范圍的值,就得到△mk。
modulated deformable RoI pooling結構的設計也是同理,公式如下所示,假如去掉△mk參數,那么就是DCNv1中的deformable RoI pooling。
在這里插入圖片描述
總結一下,DCN v1中引入的offset是要尋找有效信息的區域位置,DCN v2中引入modulation是要給找到的這個位置賦予權重,這兩方面保證了有效信息的准確提取。

接下來看看訓練階段增加RCNN feature mimicking是如何實現的,示意圖如Figure3所示,姑且稱左邊的網絡為主網絡(Faster RCNN),右邊的網絡為子網絡(RCNN)。實現上大致是用主網絡訓練過程中得到的RoI去裁剪原圖,然后將裁剪到的圖resize到224×224大小作為子網絡的輸入,子網絡通過RCNN算法提取特征,最終提取到14×14大小的特征圖,此時再結合IoU(此時的IoU就是一整個輸入圖區域,也就是224×224)作為modulated deformable RoI pooling層的輸入得到IoU特征,最后通過2個fc層得到1024維特征,這部分特征和主網絡輸出的1024維特征作為feature mimicking loss的輸入,用來約束這2個特征的差異,同時子網絡通過一個分類損失進行監督學習,因為並不需要回歸坐標,所以沒有回歸損失。在inference階段僅有主網絡部分,因此這個操作不會在inference階段增加計算成本。
在這里插入圖片描述
那么為什么RCNN feature mimicking方法有效?因為RCNN這個子網絡的輸入就是RoI在原輸入圖像上裁剪出來的圖像,因此不存在RoI以外區域信息的干擾,這就使得RCNN這個網絡訓練得到的分類結果更加可靠,以此通過一個損失函數監督主網絡Faster RCNN的分類支路訓練就能夠迫使網絡提取到更多RoI內部特征,而這個迫使的過程主要就是通過添加的modulation機制和原有的offset實現。

feature mimicking loss采用cosine函數度量2個輸入之間的差異,這是利用了cosine函數能夠度量兩個向量之間的角度的特性,其中fRCNN(b)表示子網絡輸出的1024維特征,fFRCNN(b)表示主網絡輸出的1024維特征,通過對多個RoI的損失進行求和就得到Lmimic。
在這里插入圖片描述

實驗結果部分的內容十分豐富,依次來看看:
Table1和Table2都是在COCO 2017 val數據集上的實驗結果,差別僅在於輸入圖像的短邊處理不同,Table1是短邊縮放到1000的實驗結果,Table2是短邊縮放到800的實驗結果。以Table1為例,從dconv@c5和dconv@c4-c5這兩行的對比可以直接看出即便只是簡單將DCNv1中的可變卷積層擴展到c4的網絡層,就能有非常明顯的效果提升。正如作者所說,當初DCNv1的實驗主要是在PASCAL VOC數據集上做的,因此看不到明顯提升,切換到COCO數據集就不一樣了,因此多關注數據集能夠避免一些好的想法夭折。再看看DCNv2的第二個創新點,關於引入modulate,實驗對比是dconv@c3~c5+dpool和mdconv@c3-c5+mdpool,提升有,但是不算很明顯,這部分可以結合Table3中關於RCNN feature mimicking的實驗一起看,在增加這個監督信息進行訓練后,效果提升還是比較明顯的
在這里插入圖片描述

Table3是在COCO 2017 val數據集上關於RCNN feature mimicking是否有效的對比實驗,可以看到在DCNv2的基礎上增加foreground的IoU進行聯合訓練提升非常明顯,而在常規卷積網絡中(regular)的提升非常少,這也說明了僅有監督信息還是不夠的,還需要modulation和offset扮演執行者角色進行實際操作。
在這里插入圖片描述

Table4是在COCO 2017 test-dev數據集上的測試結果,這個實驗是為了驗證DCNv2的思想在不同特征提取網絡中是否有效,這部分關於DCNv2的實驗同樣引入了RCNN feature mimic損失。可以看出當特征提取網絡從ResNet-50升級到ResNet-101和ResNeXt-101時,檢測和分割的指標都有所提升,說明了DCNv2的設計確實有效。
在這里插入圖片描述

Figure4是關於輸入圖像短邊resize到不同尺寸時常規卷積和DCNv2的效果對比。可以看出常規卷積在輸入圖像短邊尺寸變大時(比如超過1000),效果反而下降了,尤其對於大尺寸目標下降更加明顯,而DCNv2沒有這樣的現象。
在這里插入圖片描述
出現這種現象的原因就在於使用常規卷積時,當輸入圖像分辨率變大,那么對應的目標尺寸也會變大,但是因為常規卷積的感受野不變,所以能夠獲取到的特征信息就有限,如Figure5(a)第一行的3個圖所示,感受野面積依次遞減。DCNv2因為感受野受卷積的offset和modulation控制,因此在圖像分辨率變大時仍然可以獲取目標的足夠信息,如Figure5(b)第一行的3個圖所示,效果上基本不受影響。
在這里插入圖片描述

      </div>


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM