『論文筆記』Hybrid Task Cascade for Instance Segmentation


論文地址:Hybrid Task Cascade for Instance Segmentation

多任務多階段的混合級聯結構,並且融合了一個語義分割的分支來增強 spatial context。

關鍵思想:通過在每個階段結合級聯和多任務來改善信息流,並利用空間背景來進一步提高准確性。

Cascade是一種經典而強大的架構,可以提升各種任務的性能。但是,如何引入級聯到實例分割仍然是一個懸而未決的問題。 Cascade R-CNN和Mask R-CNN的簡單組合僅帶來有限的增益。本文實際上就是針對Cascade RCNN的不足進行改進的工作:

(1)Cascade-Mask-RCNN方法:沒有很好地利用前一時刻的mask結果。

(2)能夠區分難被區分的背景

 

 

 

1、Interleaved Execution

Cascade R-CNN 雖然強行在每一個 stage 里面塞下了兩個分支,但是這兩個分支之間在訓練過程中沒有任何交互,它們是並行執行的。所以我們提出 Interleaved Execution,也即在每個 stage 里,先執行 box 分支,將回歸過的框再交由 mask 分支來預測 mask,如上圖(b)所示。這樣既增加了每個 stage 內不同分支之間的交互,也消除了訓練和測試流程的 gap。我們發現這種設計對 Mask R-CNN 和 Cascade Mask R-CNN 的 mask 分支都有一定提升。
在這里插入圖片描述

2、Mask Information Flow

這一步起到了很重要的作用,對一般 cascade 結構的設計和改進也具有借鑒意義。我們首先回顧原始 Cascade R-CNN 的結構,每個 stage 只有 box 分支。當前 stage 對下一 stage 產生影響的途徑有兩條:

  • Bi+1 的輸入特征是 Bi 預測出回歸后的框通 RoI Align 獲得的;
  • Bi+1的回歸目標是依賴 Bi 的框的預測的。這就是 box 分支的信息流,讓下一個 stage 的特征和學習目標和當前 stage 有關。在 cascade 的結構中這種信息流是很重要的,讓不同 stage 之間在逐漸調整而不是類似於一種 ensemble。

然而在 Cascade Mask R-CNN 中,不同 stage 之間的 mask 分支是沒有任何直接的信息流的,Mi+1 只和當前 Bi 通過 RoI Align 有關聯而與 Mi 沒有任何聯系。多個 stage 的 mask 分支更像用不同分布的數據進行訓練然后在測試的時候進行 ensemble,而沒有起到 stage 間逐漸調整和增強的作用。為了解決這一問題,我們在相鄰的 stage 的 mask 分支之間增加一條連接,提供 mask 分支的信息流,讓 Mi+1能知道 Mi 的特征。具體實現上如下圖中紅色部分所示,我們將 Mi 的特征經過一個 1x1 的卷積做 feature embedding,然后輸入到 Mi+1,這樣 Mi+1 既能得到 backbone 的特征,也能得到上一個 stage 的特征。

在這里插入圖片描述

3、Semantic Feature Fusion

這一步是我們嘗試將語義分割引入到實例分割框架中,以獲得更好的 spatial context。因為語義分割需要對全圖進行精細的像素級的分類,所以它的特征是具有很強的空間位置信息,同時對前景和背景有很強的辨別能力。通過將這個分支的語義信息再融合到 box 和 mask 分支中,這兩個分支的性能可以得到較大提升。

 在語義分割模塊的具體設計上,為了最大限度和實例分割模型復用 backbone,減少額外參數,我們在原始的 FPN 的基礎上增加了一個簡單的全卷積網絡用來做語義分割。首先將 FPN 的 5 個 level 的特征圖 resize 到相同大小並相加,然后經過一系列卷積,再分別預測出語義分割結果和語義分割特征。這里我們使用 COCO-Stuff 的標注來監督語義分割分支的訓練。紅色的特征將和原來的 box 和 mask 分支進行融合(在下圖中沒有畫出),融合的方法我們也是采用簡單的相加。
在這里插入圖片描述

 實驗效果比RCNN系列內網絡都好,不過其實計算量增加也很可觀:

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM