目標檢測中特征融合技術(YOLO v4)(上)
論文鏈接:https://arxiv.org/abs/1612.03144
Feature Pyramid Networks for Object Detection
Tsung-Yi Lin, Piotr Dollár, Ross Girshick, Kaiming He, Bharath Hariharan, Serge Belongie
PANet(Path Aggregation Network)
論文地址:
https://arxiv.org/abs/1803.01534
代碼地址:
https://github.com/ShuLiu1993/PANet
M2det: A single-shot object detector based on multi-level feature pyramid network
論文地址:
https://arxiv.org/abs/1811.04533
代碼地址:
https://github.com/qijiezhao/M2Det
Learning Spatial Fusion for Single-Shot Object Detection,也就是著名的yolov3-asff。
論文地址:
https://arxiv.org/pdf/1911.09516.pdf
代碼地址:
https://github.com/ruinmessi/ASFF
EfficientDet: Scalable and efficient object detection。BiFPN思想和ASFF非常類似,也是可學習參數的自適應加權融合,但是比ASFF更加復雜。
論文地址:
https://arxiv.org/abs/1901.01892
代碼地址:
https://github.com/google/automl/tree/master/efficientdet(Google官方)
https://github.com/zylo117/Yet-Another-EfficientDet-Pytorch(高星PyTorch復現)
特征融合分類
在深度學習的很多工作中(例如目標檢測、圖像分割),融合不同尺度的特征是提高性能的一個重要手段。低層特征分辨率更高,包含更多位置、細節信息,但是由於經過的卷積更少,其語義性更低,噪聲更多。高層特征具有更強的語義信息,但是分辨率很低,對細節的感知能力較差。如何將兩者高效融合,取其長處,棄之糟泊,是改善分割模型的關鍵。
很多工作通過融合多層來提升檢測和分割的性能,按照融合與預測的先后順序,分類為早融合(Early fusion)和晚融合(Late fusion)。
早融合(Early fusion): 先融合多層的特征,然后在融合后的特征上訓練預測器(只在完全融合之后,才統一進行檢測)。這類方法也被稱為skip connection,即采用concat、add操作。這一思路的代表是Inside-Outside Net(ION)和HyperNet。兩個經典的特征融合方法:
(1)concat:系列特征融合,直接將兩個特征進行連接。兩個輸入特征x和y的維數若為p和q,輸出特征z的維數為p+q;
(2)add:並行策略,將這兩個特征向量組合成復向量,對於輸入特征x和y,z = x + iy,其中i是虛數單位。
晚融合(Late fusion):通過結合不同層的檢測結果改進檢測性能(尚未完成最終的融合之前,在部分融合的層上就開始進行檢測,會有多層的檢測,最終將多個檢測結果進行融合)。這一類研究思路的代表有兩種:
(1)feature不融合,多尺度的feture分別進行預測,然后對預測結果進行綜合,如Single Shot MultiBox Detector (SSD) , Multi-scale CNN(MS-CNN)
(2)feature進行金字塔融合,融合后進行預測,如Feature Pyramid Network(FPN)等。
接下來,主要對晚融合方法進行歸納總結。
Feature Pyramid Network(FPN)
FPN(Feature Pyramid Network)算法同時利用低層特征高分辨率和高層特征的高語義信息,通過融合這些不同層的特征達到預測的效果。並且預測是在每個融合后的特征層上單獨進行的,這和常規的特征融合方式不同。
FPN將深層信息上采樣,與淺層信息逐元素地相加,從而構建了尺寸不同的特征金字塔結構,性能優越,現已成為目標檢測算法的一個標准組件。FPN的結構如下所示。
· 自下而上:最左側為普通的卷積網絡,默認使用ResNet結構,用作提取語義信息。C1代表了ResNet的前幾個卷積與池化層,而C2至C5分別為不同的ResNet卷積組,這些卷積組包含了多個Bottleneck結構,組內的特征圖大小相同,組間大小遞減。
- 自上而下:首先對C5進行1×1卷積降低通道數得到P5,然后依次進行上采樣得到P4、P3和P2,目的是得到與C4、C3與C2長寬相同的特征,以方便下一步進行逐元素相加。這里采用2倍最鄰近上采樣,即直接對臨近元素進行復制,而非線性插值。
- 橫向連接(Lateral Connection):目的是為了將上采樣后的高語義特征與淺層的定位細節特征進行融合。高語義特征經過上采樣后,其長寬與對應的淺層特征相同,而通道數固定為256,因此需要對底層特征C2至C4進行11卷積使得其通道數變為256,然后兩者進行逐元素相加得到P4、P3與P2。由於C1的特征圖尺寸較大且語義信息不足,因此沒有把C1放到橫向連接中。
- 卷積融合:在得到相加后的特征后,利用3×3卷積對生成的P2至P4再進行融合,目的是消除上采樣過程帶來的重疊效應,以生成最終的特征圖。
FPN對於不同大小的RoI,使用不同的特征圖,大尺度的RoI在深層的特征圖上進行提取,如P5,小尺度的RoI在淺層的特征圖上進行提取,如P2。FPN的代碼實現如下:
import torch.nn as nnimport torch.nn.functional as Fimport math
class Bottleneck(nn.Module): expansion = 4 def __init__(self, in_planes, planes, stride=1, downsample=None): super(Bottleneck, self).__init__() self.bottleneck = nn.Sequential( nn.Conv2d(in_planes, planes, 1, bias=False), nn.BatchNorm2d(planes), nn.ReLU(inplace=True), nn.Conv2d(planes, planes, 3, stride, 1, bias=False), nn.BatchNorm2d(planes), nn.ReLU(inplace=True), nn.Conv2d(planes, self.expansion * planes, 1, bias=False), nn.BatchNorm2d(self.expansion * planes), ) self.relu = nn.ReLU(inplace=True) self.downsample = downsample def forward(self, x): identity = x out = self.bottleneck(x) if self.downsample is not None: identity = self.downsample(x) out += identity out = self.relu(out) return out
class FPN(nn.Module): def __init__(self, layers): super(FPN, self).__init__() self.inplanes = 64 self.conv1 = nn.Conv2d(3, 64, 7, 2, 3, bias=False) self.bn1 = nn.BatchNorm2d(64) self.relu = nn.ReLU(inplace=True) self.maxpool = nn.MaxPool2d(3, 2, 1)
self.layer1 = self._make_layer(64, layers[0]) self.layer2 = self._make_layer(128, layers[1], 2) self.layer3 = self._make_layer(256, layers[2], 2) self.layer4 = self._make_layer(512, layers[3], 2) self.toplayer = nn.Conv2d(2048, 256, 1, 1, 0)
self.smooth1 = nn.Conv2d(256, 256, 3, 1, 1) self.smooth2 = nn.Conv2d(256, 256, 3, 1, 1) self.smooth3 = nn.Conv2d(256, 256, 3, 1, 1)
self.latlayer1 = nn.Conv2d(1024, 256, 1, 1, 0) self.latlayer2 = nn.Conv2d( 512, 256, 1, 1, 0) self.latlayer3 = nn.Conv2d( 256, 256, 1, 1, 0)
def _make_layer(self, planes, blocks, stride=1): downsample = None if stride != 1 or self.inplanes != Bottleneck.expansion * planes: downsample = nn.Sequential( nn.Conv2d(self.inplanes, Bottleneck.expansion * planes, 1, stride, bias=False), nn.BatchNorm2d(Bottleneck.expansion * planes) ) layers = [] layers.append(Bottleneck(self.inplanes, planes, stride, downsample)) self.inplanes = planes * Bottleneck.expansion for i in range(1, blocks): layers.append(Bottleneck(self.inplanes, planes)) return nn.Sequential(*layers)
def _upsample_add(self, x, y): _,_,H,W = y.shape return F.upsample(x, size=(H,W), mode='bilinear') + y
def forward(self, x):
c1 = self.maxpool(self.relu(self.bn1(self.conv1(x)))) c2 = self.layer1(c1) c3 = self.layer2(c2) c4 = self.layer3(c3) c5 = self.layer4(c4)
p5 = self.toplayer(c5) p4 = self._upsample_add(p5, self.latlayer1(c4)) p3 = self._upsample_add(p4, self.latlayer2(c3)) p2 = self._upsample_add(p3, self.latlayer3(c2))
p4 = self.smooth1(p4) p3 = self.smooth2(p3) p2 = self.smooth3(p2) return p2, p3, p4, p5
PANet(Path Aggregation Network)
1、縮短信息路徑和用低層級的准確定位信息增強特征金字塔,創建了自下而上的路徑增強
2、為了恢復每個建議區域和所有特征層級之間被破壞的信息,作者開發了適應性特征池化(adaptive feature pooling)技術,可以將所有特征層級中的特征整合到每個建議區域中,避免了任意分配的結果。
3、全連接融合層:使用一個小型fc層用於補充mask預測
自下而上的路徑增強
Bottom-up Path Augemtation的提出主要是考慮到網絡的淺層特征對於實例分割非常重要,不難想到淺層特征中包含大量邊緣形狀等特征,這對實例分割這種像素級別的分類任務是起到至關重要的作用的。因此,為了保留更多的淺層特征,論文引入了Bottom-up Path Augemtation。
紅色的箭頭表示在FPN中,因為要走自底向上的過程,淺層的特征傳遞到頂層需要經過幾十個甚至上百個網絡層,當然這取決於BackBone網絡用的什么,因此經過這么多層傳遞之后,淺層的特征信息丟失就會比較嚴重。
綠色的箭頭表作者添加了一個Bottom-up Path Augemtation結構,這個結構本身不到10層,這樣淺層特征經過原始FPN中的橫向連接到P2然后再從P2沿着Bottom-up Path Augemtation傳遞到頂層,經過的層數不到10層,能較好的保存淺層特征信息。注意,這里的N2和P2表示同一個特征圖。 但N3,N4,N5和P3,P4,P5不一樣,實際上N3,N4,N5是P3,P4,P5融合后的結果。
Bottom-up Path Augemtation的詳細結構如下圖所示,經過一個尺寸為,步長為的卷積之后,特征圖尺寸減小為原來的一半然后和這個特征圖做add操作,得到的結果再經過一個卷積核尺寸為,的卷積層得到。
Bottom-up Path Augemtation詳細結構
適應性特征池化(adaptive feature pooling)
論文指出,在Faster-RCNN系列的標檢測或分割算法中,RPN網絡得到的ROI需要經過ROI Pooling或ROI Align提取ROI特征,這一步操作中每個ROI所基於的特征都是單層特征,FPN同樣也是基於單層特征,因為檢測頭是分別接在每個尺度上的。
本文提出的Adaptive Feature Pooling則是將單層特征換成多層特征,即每個ROI需要和多層特征(論文中是4層)做ROI Align的操作,然后將得到的不同層的ROI特征融合在一起,這樣每個ROI特征就融合了多層特征。
RPN網絡獲得的每個ROI都要分別和特征層做ROI Align操作,這樣個ROI就提取到4個不同的特征圖,然后將4個不同的特征圖融合在一起就得到最終的特征,后續的分類和回歸都是基於此最終的特征進行。
全連接融合層(Fully-Connected Fusion)
全連接融合層對原有的分割支路(FCN)引入一個前景二分類的全連接支路,通過融合這兩條支路的輸出得到更加精確的分割結果。這個模塊的具體實現如圖所示。
Fully-Connected Fusion模塊
從圖中可以看到這個結構主要是在原始的Mask支路(即帶deconv那條支路)的基礎上增加了下面那個支路做融合。增加的這個支路包含個的卷積層,然后接一個全連接層,再經過reshape操作得到維度和上面支路相同的前背景Mask,即是說下面這個支路做的就是前景和背景的二分類,輸出維度類似於文中說的。而上面的支路輸出維度類似,其中代表數據集目標類別數。最終,這兩條支路的輸出Mask做融合以獲得更加精細的最終結果。
MLFPN
MLFPN來自《M2det: A single-shot object detector based on multi-level feature pyramid network》。
之前的特征金字塔目標檢測網絡共有的兩個問題是:
1、原本 backbone 是用於目標分類的網絡,導致用於目標檢測的語義特征不足;
2、每個用於目標檢測的特征層主要或者僅僅是由單級特征層(single-level layers)構成,也就是僅僅包含了單級信息;
這種思想導致一個很嚴重的問題,對分類子網絡來說更深更高的層更容易區分,對定位的回歸任務來說使用更低更淺的層比較好。此外,底層特征更適合描述具有簡單外觀的目標,而高層特征更適合描述具有復雜外觀的目標。在實際中,具有相似大小目標實例的外觀可能非常不同。例如一個交通燈和一個遠距離的人可能具有可以比較的尺寸,但是人的外表更加復雜。因此,金字塔中的每個特征圖主要或者僅僅由單層特征構成可能會導致次優的檢測性能。
為了更好地解決目標檢測中尺度變化帶來的問題,M2det提出一種更有效的特征金字塔結構MLFPN, 其大致流程如下圖所示:首先,對主干網絡提取到的特征進行融合;然后通過TUM和FFM提取更有代表性的Multi-level&Mutli-scale特征;最后通過SFAM融合多級特征,得到多級特征金字塔用於最終階段的預測。M2Det使用主干網絡+MLFPN來提取圖像特征,然后采用類似SSD的方式預測密集的包圍框和類別得分,通過NMS得到最后的檢測結果。
如上圖所示,MLFPN主要有3個模塊組成:
1)特征融合模塊FFM;
2)細化U型模塊TUM;
3)尺度特征聚合模塊SFAM.
首先, FFMv1對主干網絡提取到的淺層和深層特征進行融合,得到base feature;
其次,堆疊多個TUM和FFMv2,每個TUM可以產生多個不同scale的feature map,每個FFMv2融合base feature和上一個TUM的輸出,並給到下一個TUM作為輸入(更高level)。
最后,SFAM通過scale-wise拼接和channel-wise attention來聚合multi-level&multi-scale的特征。
- 特征融合模塊FFM
FFM用於融合M2Det中不同級別的特征,先通過1x1卷積壓縮通道數,再進行拼接。
FFM1 用於融合深層和和淺層特征,為 MLFPN 提供基本輸入的特征層(Base Feature);由於 M2Det 使用了 VGG 作為 backbone,因此 FFM1 取出了 Conv4_3 和 Conv5_3 作為輸入:FFMv1使用兩種不同scale的feature map作為輸入,所以在拼接操作之前加入了上采樣操作來調整大小;
FFMv2用於融合 MLFPN 的基本輸入(Base Feature)和上一個 TUM 模塊的輸出,兩個輸入的scale相同,所以比較簡單。
- 細化U型模塊TUM
TUM使用了比FPN和RetinaNet更薄的U型網絡。在上采樣和元素相加操作之后加上1x1卷積來加強學習能力和保持特征平滑度。TUM中每個解碼器的輸出共同構成了該TUM的multi-scale輸出。每個TUM的輸出共同構成了multi-level&multi-scale特征,前面的TUM提供low level feature,后面的TUM提供high level feature。
TUM 的編碼器(encoder)使用 3×3 大小、步長為 2 的卷積層進行特征提取,特征圖不斷縮小;解碼器(decoder)同過雙線性插值的方法將特征圖放大回原大小。
- 尺度特征聚合模塊SFAM
SFAM旨在聚合TUMs產生的多級多尺度特征,以構造一個多級特征金字塔。在first stage,SFAM沿着channel維度將擁有相同scale的feature map進行拼接,這樣得到的每個scale的特征都包含了多個level的信息。然后在second stage,借鑒SENet的思想,加入channel-wise attention,以更好地捕捉有用的特征。SFAM的細節如下圖所示:
網絡配置
M2Det的主干網絡采用VGG-16和ResNet-101。
MLFPN的默認配置包含有8個TUM,每個TUM包含5個跨步卷積核5個上采樣操作,所以每個TUM的輸出包含了6個不同scale的特征。
在檢測階段,為6組金字塔特征每組后面添加兩個卷積層,以分別實現位置回歸和分類。
后處理階段,使用soft-NMS來過濾無用的包圍框。