一、相關工作
1、FCN
FCN開創了語義分割任務的先河,高級語義信息在分割網絡中起着至關重要的作用。為了提取高級信息,FCN使用多個池化層來增加輸出神經元的接受域大小。然而,增加池化層的數量會導致feature map的大小減小,這對將分割輸出上采樣回全分辨率造成了嚴重的挑戰。為了解決較大的特征圖分辨率和較大的接收域之間的矛盾,提出了一種新的空洞卷積算法。
2、空洞卷積(Atrous convolution )
與傳統的卷積算子相比,atrous卷積能夠在不增加核參數數目的情況下獲得更大的接受域大小。由atrous卷積產生的feature map可以與輸入的大小相同,但是每個輸出神經元擁有更大的接受域,因此可以編碼更高層次的語義。雖然atrous convolution解決了feature map分辨率與接受域大小之間的矛盾,atrouss - convolution輸出的 feature map中的所有神經元都具有相同的接受域大小,這意味着語義掩碼的生成過程只利用了單一尺度上的特征。可是,多尺度信息將有助於解決模糊情況,並產生更穩健的分類結果。
3、ASPP
為此,ASPP[2,3]提出將不同擴張率下的atrous convolution生成的feature map串聯起來,使得輸出feature map中的神經元包含多個接受域大小,對多尺度信息進行編碼,最終提高性能。
然而,隨着膨脹率的增加(如d > 24), atrous convolution變得越來越無效,逐漸失去了建模能力。因此,設計一個能夠編碼多尺度信息,同時又能獲得足夠大的接收域的網絡結構是非常重要的。
二、DenseASPP
DenseASPP由一個基礎網絡和一系列層疊的卷積層組成。提出的DenseASPP結合了並行和級聯使用空洞卷積層的優點,在更大的范圍內產生了更多的尺度特征。通過一系列的特征連接,每個中間特征圖上的神經元從多個尺度對語義信息進行編碼,不同的中間特征圖從不同的尺度范圍對多尺度信息進行編碼。通過一系列的空洞卷積,較晚層次的神經元獲得越來越大的感受野,而不會出現ASPP的核退化問題。因此,DenseASPP最終的輸出特征圖不僅涵蓋了大范圍的語義信息,而且以非常密集的方式覆蓋了該范圍。
1、貢獻
1) DenseASPP能夠生成覆蓋非常大范圍的特性(就接受域大小而言)。
2) DenseASPP生成的特征能夠非常密集地覆蓋上述尺度范圍。
2、工作模式
空洞卷積層以級聯方式組織,每一層的膨脹率逐層增加。膨脹率小的層在下部,膨脹率大的層在上部。將每一層的輸出與輸入的feature map和較低層的所有輸出連接起來,並將這些連接起來的feature map送入下一層。DenseASPP的最終輸出是由多空洞率、多尺度的卷積生成的特征圖。提出的結構可以同時組成一個更密集和更大的特征金字塔,只需要幾個空洞卷積層。與原始的ASPP[3]相比,DenseASPP將所有空洞卷積層堆疊在一起,並用緊密的連接將它們連接起來。這種變化主要給我們帶來兩個好處:更密集的特征金字塔和更大的接受域。
3、優點
3.1密度特征金字塔
“密度”一詞不僅表示特征金字塔的尺度多樣性更好,還表示卷積涉及的像素比ASPP中更多。
密集抽樣規模:DenseASPP是一個有效的架構,可以對不同規模的輸入進行采樣。DenseASPP的一個關鍵設計是使用緊密的連接來實現不同膨脹率的不同層次的集成
對於擴張速率為d、核大小為K的空洞卷積層,其等效接受域大小為:
R = (d - 1) × (K - 1) + K
以d = 3的3×3卷積層為例,對應的接受域大小為7。
將兩個卷積層疊加在一起可以得到更大的接受域。假設我們分別有兩個濾波尺寸為K1和K2的卷積層,新的接受域為:
K = K1 + K2 - 1
例如,內核大小為7的卷積層與內核大小為13的卷積層疊加,接收域大小為19。
DenseASPP由包含擴張率為3,6,12,18的擴張卷積,每組數字的表示擴張率的組合,長度表示等效的卷積核大小,k表示實際的接收野,如下所示:
密集的像素采樣:與ASPP相比,DenseASPP在特征金字塔的計算中涉及到更多的像素。ASPP采用4個膨脹率分別為6、12、18、24的卷積層構成特征金字塔。與相同接收域的傳統卷積層相比,大擴張率的卷積層的像素采樣率非常稀疏。在DenseASPP中,膨脹率逐層增加,因此,上層的卷積可以利用下層的特征,使像素采樣更加密集。
3.2更大的接受域
DenseASPP帶來的另一個好處是更大的接受域。Atrous convolutional layers在傳統的ASPP中是並行工作的,而四個分支在前饋過程中是不共享任何信息的。與之相反,DenseASPP中的空洞卷積層通過跳過連接來共享信息。小擴展率和大擴展率的層之間是相互依賴的,其中前饋過程不僅會構成一個更密集的特征金字塔,而且會產生一個更大的過濾器來感知更大的上下文。
設Rmax為特征金字塔的最大接受域,函數RK,d為核大小為K、擴張率為d的卷積層的接受域,則ASPP的最大接受域為(6,12,18,
24)是:
Rmax = max [R3,6, R3,12, R3,18, R3,24]
= R3,24
= 51
而DenseASPP(6、12、18、24)的最大接受域是:
Rmax = R3,6 + R3,12 + R3,18 + R3,24 - 3
= 122
如此大的接受域可以為高分辨率圖像中的大對象提供全局信息。例如,Cityscapes[4]的分辨率為2048×1024,而我們的分割網絡最后的feature map為256×128。
DenseASPP(6、12、18、24)覆蓋了122特征圖,DenseASPP(3、6、12、18、24)覆蓋了128的特征圖。