&論文概述
獲取地址:https://arxiv.org/abs/1811.04533
代碼地址:https://github.com/ qijiezhao/M2Det
&總結與個人觀點
本文提出Multi-Level Feature Pyramid Network來搭建高效檢測不同尺度目標的特征金字塔。MLFPN由FFM、TUMs以及SFAM三部分組成。其中FFMv1(Feature Fusion Module)用於混合由backbone提取的多層級特征作為基礎特征;TUMs(Thinned U-shape Modules)以及FFMv2s通過基礎特征提取出多層級多尺度的特征;SFAM(Scale-wise Feature Aggregation Module)將這些多層級多尺度特征依據相同尺度進行整合得到最終的特征金字塔。基於MLFPN的M2Det是一個高效的end-to-end one-stage檢測器,在MS COCO數據集達到了one-stage最優的性能。
在本論文中,最有創新的地方在於使用了SFAM,將從不同的TUM輸出的特征金字塔整合成為最終的金字塔結果,使得每一層融合了足夠多的信息以檢測當前尺度的目標。FFM並無出彩之處,整體的網絡設計很精彩。
&貢獻
1、 提出TUM模塊,在FPN的基礎上做了一些改進;
2、 通過SFAM模塊實現多層級多尺度的特征金字塔的搭建;
3、 M2Det在MS COCO數據集中達到了one-stage方法中最優的性能,同時也超越了大多數two-stage方法。
&擬解決的問題
問題: 先前使用了FPN的網絡雖然對結果有所提高,但是由於只是根據為目標分類任務設計的backbone的多尺度以及金字塔結構進行簡單地搭建特征金字塔受限。
分析:如下圖所示,SSD直接使用backbone的2層以及4層通過stride=2的卷積得到的額外層獲得特征金字塔;STDN僅使用DenseNet的最后的dense block通過池化或scale-transfer方法搭建特征金字塔;FPN通過top-down方法融合深層與淺層特征來搭建特征金字塔。而這些方法主要有2個限制:
- 金字塔中的特征層在目標檢測任務中不具有足夠的表征力,因為這些方法僅是由為目標分類任務設計的backbone的特征層來搭建;
- 金字塔中用於檢測特定大小的目標的每個特征圖主要或者僅是有backbone的single-level層搭建,這也就意味着,每一層主要或僅包含了single-level的信息。而在實際中,相同大小的目標實例會有很大差異,如交通信號燈與遠處的行人有着相似的大小,但是行人的出現更加復雜;因此,這就可能造成次優的結果。
&框架及主要方法
1、Main Structure
2、TUM(Thinned U-shape Module)
TUM的整體結構如下圖所示,采用FPN的模型,對上層特征圖使用雙線性插值上采樣方法,然后使用element-wise相加操作得到最終輸出特征圖,這里取6層特征圖。
這里與FPN不同之處有
- 編碼器采用一系列3×3,stride=2的卷積層,解碼器將這些層的輸出作為其特征圖的參考集合,而FPN選擇ResNet backbone的每個階段的最后一層輸出;
- 此外,在解碼器分支的每次上采樣以及點加操作后添加1×1卷積層以增強學習能力同時保持特征的平滑。
每個TUM解碼器所有的輸出形成了當前層級的多尺度特征,而堆疊的TUMs的輸出形成了多層級多尺度的特征,同時前面、中間以及最后的TUM分別提供了了淺層、中層以及深層特征。
3、FFM(Feature Fusion Module)
特征融合模塊融合來自不同層級的特征,使用1×1卷積壓縮通道,concat方法聚合特征圖。FFMv1是將backbone的2個不同層的特征進行融合,需要將其歸一到相同尺度,因此使用了上采樣的操作,而FFMv2是將基礎的特征與TUM最大的輸出特征圖融合。
4、SFAM(Scale-wise Feature Aggregation Module)
SFAM的作用是聚合多層級多尺度的特征,如上圖所示,SFAM的第一個階段是將相同尺度的特征按通道維度進行拼接。然而簡單地拼接不能自適應,因此在第二階段引入通道注意力模塊使得特征關注其最能受益的通道。使用全局平均池化來生成通道數據,同時為了完全捕捉通道間的依賴,通過2個全連接層學習注意力機制:
其中表示ReLu函數,表示sigmoid函數。最終的輸出通過使用激活方法s對輸入X進行重新賦權:
5、Experiment
1) 在MS COCO測試開發集中與其他one-stage、two-stage方法的對比,實驗結果表明,M2Det獲得one-stage方法中最優的性能,同時也超越了大多數two-stage方法。
2) 消融實驗:通過實驗驗證不同TUM的數量對性能的影響,以及使用Base Feature、SFAM與否對AP的影響,使用不同的backbone的影響。
3) MLFPN的不同配置就TUM以及Channel而言對實驗結果的影響,實驗表明,取8個TUMs以及512個Channels效果最佳,但引入了更多的參數,綜合考慮使用8個TUMs以及256Channels能夠均衡效率以及精度。
4) 在MS COOC test-dev數據集上的網絡的速度對比,可見M2Det綜合能力更強,在速度和精度上都達到了top水准。
5) 可視化顯示M2Det的檢測結果,從中可以看出雖然交通信號燈以及遠處的行人的大小差不多,但是檢測響應的特征層級不同,行人有着更復雜的信息,因此在更深的層級中做出檢測,對應的汽車也有相似的原因。
&思考與啟發
在主流都在思考如何對FPN網絡進行改進,使得其能夠在特征融合方面表現地更好的同時,本文作者直接通過FPN搭建特征金字塔的方法上從根源找出不足之處以達到提高性能的目的;可以說本文作者對問題的理解程度很深,關注方法也一針見血。