在很多工作中,融合不同尺度的特征是提高分割性能的一個重要手段。低層特征分辨率更高(low-level information),包含更多位置、細節信息,但是由於經過的卷積更少,其語義性更低,噪聲更多(說明:原始圖像屬於低層特征,可以看清具體的紋理信息,但是沒有分類信息,干擾信息更多)。高層特征具有更強的語義信息(high-level information),但是分辨率很低,對細節的感知能力較差(說明:經過更多的卷積,可以有效歸納出語義信息,就是類似某個區域就是什么東西,並不需要顯示具體的紋理信息)。如何將兩者高效融合,取其長處,棄之糟泊,是改善分割模型的關鍵(這就是U-Net等模型的實現原理)。
而增加了skip connection結構的U-Net,能夠使得網絡在每一級的上采樣過程中,將編碼器對應位置的特征圖在通道上進行融合。通過底層特征與高層特征的融合,網絡能夠保留更多高層特征圖蘊含的高分辨率細節信息,從而提高了圖像分割精度。
我們也在U-Net上面做了一些工作。我們在網絡中引入鄰層特征重建和跨層特征重建增強層與層之間特征信息傳遞的同時,進一步對高層卷積特征層中豐富的細節信息進行了利用,從而最大化地提高了網絡各層中的特征信息的利用率。
跨層特征重建:跨層特征重建模塊建立在編碼器-解碼器結構的基礎上,旨在將語義信息更豐富的高層卷積特征層和低層卷積特征進行融合。因為在網絡傳播的過程中,隨着網絡越來越深,相應特征圖的感受野會越來越大,但是保留的細節信息會越來越少,而對於語義分割任務,高層卷積所保留的豐富的細節信息是非常有利用價值的,基於編碼器-解碼器對稱式的結構,利用Concat拼接層將編碼器過程中下采樣提取出來的特征圖與解碼器過程中上采樣得到的新特征圖一一對應進行通道維度拼接。憑借跨層特征重建模塊,可以更大程度地保留高層卷積中的一些重要特征信息,有利於實現更精細的分割效果。
很多工作通過融合多層來提升檢測和分割的性能,按照融合與預測的先后順序,分類為早融合(Early fusion)和晚融合(Late fusion)。
早融合(Early fusion): 先融合多層的特征,然后在融合后的特征上訓練預測器(只在完全融合之后,才統一進行檢測)。這類方法也被稱為skip connection,即采用concat、add操作。這一思路的代表是Inside-Outside Net(ION)和HyperNet。 兩個經典的特征融合方法:
(1)concat:系列特征融合,直接將兩個特征進行連接。兩個輸入特征x和y的維數若為p和q,輸出特征z的維數為p+q;
(2)add:並行策略[36],將這兩個特征向量組合成復向量,對於輸入特征x和y,z = x + iy,其中i是虛數單位。
晚融合(Late fusion):通過結合不同層的檢測結果改進檢測性能(尚未完成最終的融合之前,在部分融合的層上就開始進行檢測,會有多層的檢測,最終將多個檢測結果進行融合)。這一類研究思路的代表有兩種:
(1)feature不融合,多尺度的feture分別進行預測,然后對預測結果進行綜合,如Single Shot MultiBox Detector (SSD) , Multi-scale CNN(MS-CNN)
(2)feature進行金字塔融合,融合后進行預測,如Feature Pyramid Network(FPN)等。
