CVPR2020 面向密集多角度物體檢測的動態修正網絡(DRN)


論文鏈接:https://arxiv.org/pdf/2005.09973.pdf 

code:https://github.com/Anymake/DRN_CVPR2020 

文章概要:

  本文是中科院自動化所、騰訊優圖、快手科技聯合發表的工作,收錄於CVPR2020。本文針對定向和密集場景中的目標檢測任務提出了動態優化網絡,可以說是目標檢測在特定場景下的應用與優化。本文主要創新點在於:
  1、提出了一種新穎的可自適應調整目標感受野的特征選擇模塊FSM。
  2、提出了兩種動態優化的檢測頭(DRH-C/R),分別對分類和回歸任務進行動態優化,實現對樣本唯一性和特殊性的建模。

本文動機:

  密集多角度物體檢測面臨的挑戰:
  1、神經元的感受野全部沿軸排列且具有相同的形狀,但物體通常具有不同的形狀並沿不同的方向排列;
  2、檢測模型通常利用通用知識進行訓練,但在測試階段可能不能很好的處理特定的物體;
  3、有限的數據集限制了密集多角度目標檢測任務的發展。

  針對問題1和問題2,本文分別提出了特征選擇模塊FSM和動態優化head(DRH-C/R);針對問題3,本文收集了一個擴展的且帶有完整注釋的數據集SKU110K-R,該數據集基於SKU110K數據集的定向邊界框進行重新標記。

網絡整體結構:

  本文以CenterNet(https://arxiv.org/abs/1904.07850)作為baseline,CenterNet算法將目標檢測問題變成了一個關鍵點的估計問題,通過預測物體的中心點位置及對應物體的長與寬,實現了當前檢測精度與速度最好的權衡。為了預測有向的邊界框(oriented bounding boxes),添加了一個分支回歸邊界框的方向。有向邊界框定義如下:
$$\begin{split}
&P_{lt}=M_r[-w/2,-h/2]^T+[c_x+\delta_x,c_y+\delta_y]^T,\\
&P_{lt}=M_r[+w/2,-h/2]^T+[c_x+\delta_x,c_y+\delta_y]^T,\\
&P_{lt}=M_r[-w/2,+h/2]^T+[c_x+\delta_x,c_y+\delta_y]^T,\\
&P_{lt}=M_r[+w/2,+h/2]^T+[c_x+\delta_x,c_y+\delta_y]^T,
\end{split}\tag{1}
$$
參數說明:$(c_x,c_y)$和$(\delta_x,\delta_y)$表示中心點和預測的偏移量。$(w,h)$是預測的尺寸,$M_r$表示旋轉矩陣,$P_{lt},P_{lb},P_{rt},P_{rb}$表示四個角點。遵循CenterNet的回歸任務,文章使用$L_1$損失進行旋轉角度的回歸:
$$L_{ang}=\frac{1}{N}\sum_{k=1}^N|\theta-\hat{\theta}|,\tag{2}$$
其中$\theta$和$\hat{\theta}$分別表示旋轉角度的目標值和預測值。$N$表示正樣本的數量,總體的訓練目標函數為:
$$L_{det}=L_k+\lambda_{size}L_{size}+\lambda_{off}L_{off}+\lambda_{ang}L_{ang},\tag{3}$$
其中$L_k,L_{size},L_{off},L_{ang}$分別表示中心點類別損失、尺度回歸損失、偏置損失、角度回歸損失,$\lambda_{size},\lambda_{off},\lambda_{ang}$為權重系數,用於平衡各部分損失。

特征選擇模塊(Feature Selection Module)

  為了緩解各種物體與軸對齊的感受野之間的不匹配問題,作者提出了一種特征選擇模塊(FSM),用以自適應的聚合不同的核大小、形狀(長寬比)、方向所提取的信息。 

 FSM工作流程:
  1、給定初始特征圖$X\in\R^{H\times W\times C}$,經過$1\times 1$Conv、BN、Relu輸出$X_c\in\R^{H\times W\times C'}$;
  2、利用多個不同尺寸的的RCLs從$X_c$提取多個特征。其中每個RCl負責不同的感受野區域;
  3、利用注意力機制融合不同的特征。
  作者提到RCL的靈感來源於DCN,fig 4.展示了可變形卷積的概括了各種尺度變換、比例變換和旋轉變換。同時作者在此基礎上,引入了角度信息$\theta$對卷積核的方向進行編碼,把之前標准的卷積核變成帶有參數$\theta$的旋轉卷積核,這種方式緩解了各種物體與軸對齊的感受野之間的不匹配問題,使得卷積核能更加適應旋轉目標信息的提取。基於上述內容,我覺得RCL更像是DCN和ROI Trans(https://arxiv.org/pdf/1812.00155.pdf)思想的結合,但是ROI Trans是對ROI進行旋轉。

Figure 4.正常卷積和可變形卷積的采樣方式

 FSM的數學描述:
  1、遵循DCN的表達形式,本文依然使用$\mathcal{R}$表示規則網格的感受野。對於$3\times 3$的核,有:
$$\mathcal{R}=\lbrace(-1,-1),(-1,0),...,(0,1),(1,1)\rbrace,\tag{4}$$
  2、給定第i個位置預定義的偏移$p_i\in\mathcal{R}$和學習到的角度參數$\theta$,學習到的偏移量為:
$$\delta_{p_i}=M_r(\theta)\cdot p_i-p_i\tag{5}$$
  3、對於輸出特征圖$X_i$中的每個位置$p_0$,有:
$$X_i(p_0)=\sum_{p_n\in\mathcal{R}}\cdot X_c(p_0+p_n+\delta p_n),\tag{6}$$
  4、為了增強神經元感受野的自適應能力,本文采用注意力機制並與point-wise的方式融合特征。$X_i$首先經過一個注意力模塊(由$1\times 1$卷積核、BN和RELU組成)得到注意力熱圖$A_i\in\bm{R}^{H\times W\times 1}(i\in1,2,3)$,之后歸一化選擇權重,
$$A'_i=SoftMax([A_1,A_2,A_3]).\tag{7}$$

  5、特征融合並輸出特征圖$Y$:
$$Y=\sum_{i}A'_i\cdot X_i,\tag{8}$$
其中$Y\in\mathbb{R}^{H\times W\times C}$,需要注意的是FSM可以擴展到更多的分支,文中3分支的結構只是其中一個例子。

動態優化檢測head(Dynamic Refinement Head)

  文章提到,在標准的機器學習框架中,人們通過大量標注的數據訓練模型。在推理階段,將測試樣例輸入參數固定的模型以獲得預測的結果。這種訓練好的模型只能從訓練集學到的普遍性知識做出響應而忽略每個樣例(sample)的唯一性,會產生預測靈活性差的問題。figure 1.對本文提到的問題進行了說明。離邊界較近的點很容易發生誤識別。為了增強模型預測的靈活性,提出了DRH(DRH-C/R,分別用於分類和回歸任務)。DRH對每個輸入對象的特殊性進行建模。

 

 

 Dynamic refinement for classification

  • 給定輸入$F_in\in\mathcal{R}^{H\times W\times C}$,首先獲得目標感知(object-aware)的濾波器$K_c$:
    $$K_c=G_c(F_{in};\phi),\tag{9}$$
    其中$G_c$表示動態濾波生成器,$\phi$表示$G_c$的參數集。$K_c$表示從樣本中學習到的核權重。
  • $F_{mid}$和$K_c$進行卷積操作得到細化的特征$F_{\Delta}$:
    $$F_{\Delta}=F_{mid}\ast K_c,\tag{10}$$
    $F_{mid}$為$F_in$經過Conv-BN-ReLu處理得到。
  • 最后利用公式$(11)$得到分類預測$H_c$:
    $$H_c=C((1+\xi\cdot F_{\Delta}/||F_{\Delta}||)\cdot F_mid;\Phi),\tag{11}$$
    $C(\cdot;\Phi)$表示參數為$\Phi$的分類器。$\xi$是控制細化范圍的常數因子。

Dynamic refinement for regression

  • 給定輸入$F_{in}\in\mathcal{R}^{H\times W\times C}$,首先通過$G_r(\cdot;\psi)$獲得$K_r$,之后通過類似公式$(10)$的操作獲得$H_{\Delta}$,最后計算得到目標感知的回歸結果$H_r$:
    $$\begin{split}
    &H_b=\mathcal{R}(F_{mid};\Psi),\\
    &H_r=(1+\epsilon\cdot tanh(H_{\Delta}))\cdot H_b,
    \end{split}\tag{12}
    $$
    $\mathcal{R}(\cdot;\Psi)$表示參數為$\Psi$的回歸器。細化因子通過$tanh$限制在$[-1,1]$范圍內變化。$\epsilon$表示防止模型被過大細化而混淆的控制因子,設置為0.1。

實驗

  • 對比實驗

 

 消融實驗

  • 定性分析 

總結
  本文總結了現有的有向密集目標檢測任務存在的問題,提出了相應的解決方法。文章邏輯結構清晰,實驗充分。我覺得文章中提到的物體與軸對齊的感受野不匹配問題就是特征不對齊問題,細化模塊本質上就是學習一個映射函數,該映射函數能根據輸入特征得到動態的濾波器。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM