論文題目:《BiSeNet: Bilateral Segmentation Network for Real-time Semantic Segmentation》
論文摘要:語義分割同時要求豐富的空間信息和大小不同的感受野。然而,通常我們為了達到實時的推理速度,會降低圖像的空間分辨率,從而導致效果很差。因此,本文提出了雙向的語義分割網絡,首先,采用空間分支保持空間信息並生成高分辨率的特征圖。其次,采用快速下采樣策略的上下文分支去獲得豐富的感受野,最后,引入了特征融合模塊結合兩個分支的特征。所提出的結構在兼顧速度的同時,在Cityscapes、CamVid、和COCO-Stuff數據集上取到了很好的性能。
1.1. 方法概括
圖1 網絡結構
方法的介紹主要包含三部分:空間分支、上下文分支和特征融合模塊
1、空間分支:現有的語義分割任務中,一些現有的方法用膨脹卷積保留輸入圖像的分辨率去編碼足夠的空間信息;一些方法通過使用金字塔池化模塊、空洞金字塔池化、大的卷積核捕捉豐富的感受野,這些方法表明空間分辨率和感受野對達到較高的准確率是至關重要的。然而,很難同時滿足兩種要求,尤其是在實時的語義分割任務中。
本文的作者提出了空間分支保留原始輸入圖像的空間尺寸並編碼豐富的空間信息。空間分支主要包括三層,每一層包括一個步長為2的3*3卷積、bn和relu。最終,空間分支得到的特征圖是原圖的1/8。圖1(a)顯示了結構的細節。
2、上下文分支:為了兼顧感受野的大小和實時兩個因素,上下文分支采用Light Weight模型和全局平均池化去提供更大的感受野。在本文中,light weight 模型可以快速的下采樣特征圖獲得更大的感受野,來編碼high level的上下文信息;然后,使用全局平均池化提供具有全局上下文信息的最大感受野;最后,結合全局池化上采樣輸出的特征圖和lightweight模型的特征圖。為了改善每個stage的特征,作者提出了Attention refinement module,如圖1(b)所示,ARM使用全局平均池化去捕捉全局上下文並且計算一個注意力向量去引導特征學習。這個設計可以使得每個階段的特征圖更精細。
3、特征融合模塊:兩個分支所提取的特征是不同level的,所以不能簡單的把二者相加。空間分支捕捉空間信息編碼更豐富的細節信息。上下文分支主要編碼了上下文信息。換句話說,空間分支的特征是low level的,而上下文分支的特征是high level的,因此,本文提出了專門的特征融合模塊。具體的細節如圖1(c)
4、損失函數:本文中,作者利用了輔助損失函數用來監督訓練。使用主要的loss來監督特征圖最后的輸出,此外,添加了兩個明確的輔助loss函數來監督上下文分支的輸出。所有采用的損失函數均為Softmax loss,如公式(1)所示。
為了平衡主要loss和輔助loss的權重,作者使用了參數a。本文中a設置為1,聯合的loss更適合去優化本文的模型。
Lp表示主要的loss,concat之后輸出。Xi是Xception模型的第i個階段的輸出特征。Li表示第i個階段的輔助loss。在本文中K=3。只在訓練階段使用輔助loss
1.2. 實驗
1、消融實驗:
2、速度和准確性的比較