自適應特征融合（Adaptively Spatial Feature Fusion: ASFF）

本文轉載自查看原文 2021-04-19 10:43 905 計算機視覺-CV/ 深度學習

來自這篇論文：<Learning Spatial Fusion for Single-Shot Object Detection>

論文地址:https://arxiv.org/pdf/1911.09516v1.pdf

捕捉到題目中重點: Learning spatial fusion 即論文主要是提出一種新的自適應融合策略,實現特征在空間上的融合,在單階段目標檢測中取得了較好的效果.這種策略作者將它命名為Adaptively Spatial Feature Fusion (ASFF）

一、contribution:

1.實現了一個更strong的baseline (將YOLOv3 從33.0%直接提升到38.8%)

作者博采眾長, 利用最近在目標檢測領域新涌現的各種訓練trick和基於anchor的各種網絡進行訓練, 最終把baseline提高了5.8%, 恐怖如斯, 以下我們盤點一下作者所用到的論文及其主要思想.

a. Bag of tricks

來自於<Bag of Freebies for Training Object Detection Neural Networks>

https://arxiv.org/pdf/1902.04103.pdf

該文章提出了一種用於目標檢測任務的視覺相干（visually coherent）圖像混合(mixup)方法,還詳細探討了關於學習率調度、權重衰減和同步 BatchNorm等訓練trick, 最終證明了其方法的有效性, 不修改網絡架構、損失函數, 不增加任何推理成本，在現有模型的基礎上實現了 5% 的絕對精度提升。

b.聯合訓練anchor free branch 和 anchor based branch

來自於<Feature Selective Anchor-Free Module for Single-Shot Object Detection>

https://arxiv.org/pdf/1903.00621.pdf

該文章作者指出在目標檢測中anchor機制總是將ground truth box匹配到最接近的anchor boxes，也就是分配到了某一個特征層, 這是sub-optimal的. 所以避開anchor, 增加輕量的anchor free分支讓網絡去選擇特征層, 使得每一個ground truth box匹配到最佳的特征層. 單獨使用anchor-free分支效果與單獨使用anchor-base基本持平, 只高了0.2%，組合anchor-based+anchor-free，能明顯提升檢測效果，AP由35.9%提升到37.2%

c.anchoring guiding機制

來自於<Region Proposal by Guided Anchoring>

https://arxiv.org/pdf/1901.03278.pdf

現階段目標檢測方法很多都使用了anchor機制, 通過預先定義好的長寬比和大小在空間位置上進行采樣產生proposal。該文章作者提出了Guided Anchoring, 利用語義特征引導anchor, Guidied Anchoring 不僅預測感興趣的object的center位置, 而且預測不同空間位置處的大小和長寬比

d.IoU loss

來自<UnitBox: An Advanced Object Detection Network>2016

https://arxiv.org/pdf/1608.01471.pdf

這是一篇比較老的文章, ASFF在原有的平滑L1 loss基礎上使用了額外的IoU loss, IoU loss在UnitBox中首次被提出,並證明了其有效性

2.自適應空間特征融合

a.motivation:

用特征金字塔檢測物體時, 存在一個啟發性式特征選擇機制, 大的intance對應高層的feature map, 小的instance對應低層的feature map. 當一個某一特征層的實例屬於positive sample, 這意味着在其他特征層上相應的那部分區域將被是為背景. 這種不同level特征之間的沖突、這種不一致會干擾訓練時的梯度計算，降低了特征金字塔的有效性。

(意思大概是, 在這個level的feature上instance你告訴模型它positive, 另一個level上相應的這部分卻告訴模型negative, 模型風中凌亂了)

在此基礎上, 作者提出了一個新穎且有效的方法, 即自適應性空間特征融合(ASFF), 以這種方法去解決在單階段目標檢測特征金字塔中存在的這種不一致問題. ASFF能夠讓網絡去學習如何在空間上過濾其他層的無用信息, 只保留有用信息去combination.

b.advantage:

1) 搜索最優融合的操作過程是可微分的，可以方便地在反向傳播中學習

2)ASFF與backbone無關，適用於所有具有特征金字塔結構的單階段檢測器

3) 實現簡單，增加的計算量很小

c.Apative Fusion

注意：上圖中，從level1、2、3到ASFF1、2、3之間的鏈接是全連接。

(1)

融合前需要對feature map進行resize, 例如, 如果現在要將level 1、level 2、level3融合成ASFF-1, 首先需要對level 2、level 3進行下采樣, size一樣了再融合. 作者就是通過上采樣、下采樣和池化的操作將level1,2,3變成同樣size便於下步融合操作

$x_{ij}^{n→l}$ 代表從level n的特征resize到level l 后(i,j)處的特征向量

以上公式的意思就是, level1,2,3 resize后的feature map 在每個(i,j)與各自的權重矩陣 $\alpha、\beta、\gamma$ 的(i,j)處相乘再相加, 得到融合后的ASFF-L

且滿足 $\alpha_{ij}^{l}+\beta_{ij}^{l}+\gamma_{ij}^{l}=1 和\alpha_{ij}^{l},\beta_{ij}^{l},\gamma_{ij}^{l}\in[0,1]$ 約束條件, 這個約束條件通過 $x^{1→l}、x^{2→l}、x^{3→l}$ 1*1卷積后得到的 $\lambda_{\alpha}^{l}、\lambda_{\beta}^{l}、\lambda_{\gamma}^{l}$ 再softmax來滿足

輸出 ${y^{1}、y^{2}、y^{3}}$ 就是圖中的ASFF-1、ASFF-2、ASFF-3, 它們作為prediction的輸入

d.consistency property

剛剛提到motivation中作者指出特征金字塔目標檢測中存在不一致問題, 這部分作者給出了ASFF的一致性屬性證明

在YOLOv3中, 以resize前的level 1 feature map上的(x,y)點為例, 梯度可以這樣被計算: (沒寫 $\alpha、\beta、\gamma$ )

(3)

因為在特征金字塔不同層的變換中我們只使用了上采樣、下采樣(pooling)等, 我們可以簡單的將這個過程的梯度視為約等於1

即

這樣我們就可以將最開始的式子化簡為:

(4)

對於在YOLOv3、RetinaNet上兩種較為常見的融合操作(sum、concat), 只有element-wise sum and concatenation操作, 所以有

式子又可以被化簡為:

(5)

假設根據匹配機制, level 1位置（i，j）是一個object的中心， $\frac{\partial L}{y_{ij}^{1}}$ 是來自正樣本的梯度。其他層對應的位置被視為背景, 所以 $\frac{\partial L}{y_{ij}^{2}}、 \frac{\partial L}{y_{ij}^{3}}$ 是來自負樣本的梯度. 這種不一致性會干擾 $\frac{\partial L}{y_{ij}^{1}}$ 梯度, 並降低feature map level 1的訓練效率

解決這個問題的典型方法是設其他level map上相關位置為忽略區域, 即 $\frac{\partial L}{y_{ij}^{2}}= \frac{\partial L}{y_{ij}^{3}}=0$ , 這種方法雖然消除了level 1 map上的沖突, 但 $y_{ij}^{2}、y_{ij}^{3}$ 之間的相關性會在一些局部最優的level上cause more inferior predictions as false positives( 如何理解?? 我的理解是會讓level2 map、level3 map都變差, 沒那么容易區分在哪個level上positive)

那么這個問題在ASFF上如何解決呢? 由式(1)和式(4)可得:

(6)

這里的 $\alpha_{ij}^{1},\alpha_{ij}^{2},\alpha_{ij}^{3}\in[0,1]$ , 利用這三個系數，如果 $\alpha_{ij}^{2}\rightarrow0和\alpha_{ij}^{3}\rightarrow0$ ，則可以很好地協調梯度的不一致。可以通過標准的反向傳播算法學習融合參數，因此，經過這樣調整的訓練過程可以產生有效的系數, 與此同時 $\frac{\partial L}{y_{ij}^{2}}、 \frac{\partial L}{y_{ij}^{3}}$ 也被保留, 避免產生false positives

二、experiment results

參考:

FSAF https://blog.csdn.net/diligent_321/article/details/88384588

發布於 2020-03-13

原文鏈接：https://zhuanlan.zhihu.com/p/112969358

ASFF：目標檢測自適應特征融合方式
Adaptively Spatial Feature Fusion的自適應特征融合方式
在目前的目標檢測算法中，為了充分利用高層特征的語義信息和底層特征的細粒度特征，采用最多也是較好的特征融合方式一般是FPN架構方式，但是無論是類似於YOLOv3還是RetinaNet他們多用concatenation或者element-wise這種直接銜接或者相加的方式，論文作者認為這樣並不能充分利用不同尺度的特征。所以提出一種新的融合方式來替代concat或element-wise。

以ASFF-3為例，圖中的綠色框描述了如何將特征進行融合，其中X1，X2，X3分別為來自level，level2，level3的特征，與為來自不同層的特征乘上權重參數α3，β3和γ3並相加，就能得到新的融合特征ASFF-3，如下面公式所示：

因為采用相加的方式，所以需要相加時的level1~3層輸出的特征大小相同，且通道數也要相同，需要對不同層的feature做upsample或downsample並調整通道數。

對於權重參數α，β和γ，則是通過resize后的level1~level3的特征圖經過1×1的卷積得到的。並且參數α，β和γ經過concat之后通過softmax使得他們的范圍都在[0,1]內並且和為1：

總結，其實這種融合方式的思想在很多算法中都有體現，比如注意力模型，圖像修復算法，利用權重參數來調整特征融合的貢獻大小。
————————————————
版權聲明：本文為CSDN博主「豆豆小朋友小筆記」的原創文章，遵循CC 4.0 BY-SA版權協議，轉載請附上原文出處鏈接及本聲明。
原文鏈接：https://blog.csdn.net/qq_40728805/article/details/103524193

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 領域自適應（Domain Adaptation）之領域不變特征適配（二）特征哈希（Feature Hashing）特征工程(Feature Engineering) Sensor fusion(傳感器融合) Feature Fusion for Online Mutual Knowledge Distillation （CVPR 2019） CLOCs：3D目標檢測多模態融合之Late-Fusion popupWindow自適應大小如何讓UI屏幕自適應呢前端自適應布局自適應度量學習