【論文筆記】Object detection with location-aware deformable convolution and backward attention filtering


&論文概述

 

獲取地址:http://openaccess.thecvf.com/content_CVPR_2019/papers/Zhang_Object_Detection_With_Location-Aware_Deformable_Convolution_and_Backward_Attention_Filtering_CVPR_2019_paper.pdf 

&總結與個人觀點

本文提出了location-aware deformable convolution以及backward attention filtering模塊以提高自動駕駛中多類別多尺度目標檢測的性能。其中location-aware deformable convolution能夠自適應提取不均勻分布的上下文特征,與標准卷積特征結合以搭建為復雜場景中檢測目標的健壯的、更具表征力的特征。Backward attention filtering模型利用深層卷積層中的高級語義特征以增強有信息的高分辨率特征同時抑制分散特征,提高了性能同時減少了需要的RoIs。通過在前向-后向網絡中結合兩個方法,在KITTI以及PASCAL VOC數據集中速度和性能均達到頂尖水准。 

本文主要關注兩個方面:上下文信息以及空間信息的精煉。分別使用位置感知的可變形卷積以及注意力機制,均是增強特征方面的操作;對問題的分析以及每一步的原由分析都很到位。

&貢獻

  • 提出location-aware可變形卷積來提取沒有固定幾何分布的上下文特征,提取的特征被用於增強標准卷積特征,從而提高檢測性能;
  • 提出backward attention filtering模型使用深層特征過濾淺層特征,強調informative特征同時抑制分散特征,使得RPN能夠更容易生成合理的RoIs,因此減少了需要的RoI的數量從而提升模型速度;
  • 將兩個方法結合到forward-backward網絡中,在KITTI以及PASCAL VOC數據集中性能和速度均達到頂尖水准。 

&擬解決的問題

問題:上下文信息以及高分辨率特征在多尺度目標檢測中有着重要的作用,但是上下文信息分布不均勻高分辨率特征圖中也包含distractive低級特征

分析:先前的研究表明,在復雜場景的多尺度目標檢測中,上下文信息以及高分辨率特征至關重要。最常用的提取上下文特征的方法是通過卷積層增大感受野,從而能夠看到較大的區域;然而,上下文信息的分布並不均勻,同時也不是固定的。為了捕獲上下文信息,不僅需要較大的感受野,還需要對輸入的自適應的幾何結構。標准卷積固定輸入采樣的網格,不能靈活處理上下文分布的多樣性。可變形卷積引入位置偏移能夠自適應地提取上下文特征

在街景中CNN淺層的高分辨率特征往往是模糊且受干擾的,為了使檢測器集中在目標上,需要強調有信息的特征,同時抑制噪音。使用卷積高層語義特征作為attention map以過濾高分辨率特征圖是一個好的解決方案。 

&框架及主要方法

1、  Main Structure

從現在的角度看,這個框架很容易理解,從backbone中提取出c1-c6,從c3開始使用location-aware deformable convolution以增強上下文信息,之后使用橫向連接以及將上層特征作為注意力整合特征,顯示信息較為豐富的區域,同時抑制噪聲。之后使用skip pooling來整合特征進行預測。 

2、  Location-aware deformable convolution

  

 

一般的可變形卷積,只有一個基於標准卷積相同感受野的卷積層來預測所有的offset。可是使用相同感受野以及卷積層對每個輸入樣本進行offset預測可能無法獲得最優的結果;此外,感受野太小在offset預測時不能查看周圍的特征,也使其不能捕獲有用的上下文信息。因此提出location-aware deformable convolution:

其中I為輸入特征,O為輸出特征,D為膨脹率,pn為相對於中心的位置變化,如(-1, -1);

如上圖所示,首先使用1×1的卷積來壓縮通道至64,減少通道大小在維持計算開銷上是必要的;然后膨脹卷積來擴大感受野,在每個卷積的位置上使用不同的卷積核以預測每個位置的偏移;之后由於預測的偏移通常是小數,使用插值以獲得對應的特征值,最后計算加權和得到最終輸出。

Location-aware deformable convolution的目的是為了獲得更豐富的上下文信息,得到的結果需要與標准卷積的結果一起處理,將兩者concatenate起來,然后使用1×1卷積壓縮到原來的通道數組成最終的輸出特征。

這里沒有進行消融實驗,看不出來這個方法對整體效果的提升有多大,同時我想要了解只使用location-aware deformable convolution,不加上standard convolution的結果會有什么效果

3、  Backward attention filtering

這里的注意力機制的使用很常規,直接將上層語義信息使用3×3卷積后進行sigmoid,作為注意力,然后上采樣到對應大小與當前層特征相乘:

4、  Skip pooling

Skip pooling可以參考ION: Inside-Outside Net: Detecting Objects in Context with Skip pooling and recurrent neural networks一文中提出的skip pooling方法的使用。將池化擴展到多層中,需要考慮到維度以及幅度的問題:在ImageNet上的預訓練表明,保存現有層的shape相當重要,因此最終的結果也應該為512×7×7;同時,為了匹配原始的shape,必須匹配原始的激活幅度。

首先將多層特征中的每一層使用RoI pool到512×7×7的大小,然后按通道進行拼接,使用1×1卷積壓縮通道;為適應原始幅度,使用L2正則化,同時將rescale到需要的scale。 

5、  Experiment

1)      對比+消融:使用相同backbone與faster R-CNN間的效果對比,以及模塊間的消融實驗結果。使用兩個backbone,本文的方法效果對比Faster R-CNN均有較大的提高,最高分別提升2.9與3.4個點。每個模塊的使用也都有相應的提升。其中(a)為僅使用location-aware deformable convolution,(b)僅使用backward attention filtering,(c)同時使用兩個模塊。

2)      對比+消融:Location-aware deformable convolution模塊與一般的convolution以及deformable convolution間的對比,同時對比了不同膨脹率的結果。可見,最優的結果是使用膨脹率為2的膨脹卷積,使用標准卷積進行offset預測。

3)      對比實驗:與其他使用attention機制的方法的對比。可見,本文提出的backward attention filtering的效果最佳。

 

4)      對比實驗:本文結果與其他方法的對比。可見,本文提出的雖不至於在效果上達到最優,但是均衡了速度與性能。

 

&遇到的問題

1、  當前的特征對結果的影響究竟在哪,只使用用於增強的方法的效果還比不上最初的結果,必須要加上當前的特征才能得到更好的結果?

2、  直接使用融合特征做預測,而不是使用多尺度訓練,這樣能夠有效避免NMS處理多義性的問題嗎?當前的效果比FPN的要差一些,是不是因為沒有使用多尺度訓練的原因,如果不使用skip pooling效果會不會好一些? 

&思考與啟發

看這篇論文主要是想要明白注意力機制是怎么使用的,當前自己嘗試使用了幾個注意力融入的方式效果均達不到想要的水准,此外,根據本文的想法,可以思考如何在特征融合過程中加入更豐富的上下文信息

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM