論文閱讀筆記二十二:End-to-End Instance Segmentation with Recurrent Attention(CVPR2017)


 

論文源址:https://arxiv.org/abs/1605.09410

tensorflow 代碼:https://github.com/renmengye/rec-attend-public

摘要

      卷積網絡在像語義分割等結構預測任務中效果較好,但對於場景中不同實例個體分割仍存在一定的挑戰性。實例分割有很多應用場景,比如,自動駕駛,圖像捕捉,智能視頻問答系統等。將大量的圖形模型與低層次的可視化信息相結合用於實例分割。該文提出了一個端到端的帶有注意力機制的RNN結構,來進行精細的實例分割。該網絡順序生成每個區域中的分割對象。

介紹

     傳統的語義分割無法指明圖像中每個類別物體的個數。實例分割與之相比難度要大一些,因為實例分割需要區分相鄰的,忽略的實例。在面向基於圖像的機器理解的過程中進行實例分割也是十分重要的。實例分割的數據集有CityScapes。

     對於實例分割,一種可行的方法是將其當作為一個結構輸出問題。一個至關重要的問題是結構輸出的維度。這個維度可以是目標物的個數乘以該物體的像素。標准的FCN網絡很難將圖像中的所有實例標記進行輸出。進來有結合圖形結構進行實例分割,但造成的結構過於復雜,同時需要消耗大量的時間,另外,這種方式無法進行端到端的訓練。

     像目標檢測相似,重合也是實例分割中的一個主要挑戰,為了自底向上的解決此問題,需要將兩個互不相關的區域進行融合,對於小規模來說,這十分具有挑戰性。使用NMS可以處理重合問題,但由於檢測時會有大量的前景重疊,因此使用NMS可能會降低檢測的效果。受此啟發,本文使用一種遞歸方式來進行活動的NMS,對重合問題進行自上而下的分析。

     一個相關問題是對一個圖像中每個目標類別的實例個數進行統計。計數問題已經形成了一個特殊的任務設置,檢測通過后接的回歸進行實現,或者對一個計數誤差標准進行區分度的學習。

     為解決上述挑戰,該文提出了一種基於RNN同時,利用注意力機制的新模型用於實例分割。該網絡進行實例分割的同時,進行了計數操作。通過使用一個時間鏈,使一次只輸出一個實例。執行動態的NMS,利用一個已經分割好的目標,用於輔助后續重合的目標物中。受人反復和專注的思想啟發,使用基於RNN對一個實例進行分割。分割與計數進行聯合訓練可以使定義的循環網絡的方程自動的進行停止操作。

 循環注意力機制

    本文主要包含四個部分:(1)external memory:捕捉分割物體的狀態(2)box proposal network:負責對感興趣的目標物體進行定位。(3)segmentation network:對box中的物體進行像素級的分類(分割)。(4)scoring network :決定一個實例是否被找到,同時決定何時進行停止操作。網絡結構如下

   符號

 

   輸入的預處理:

     預訓練一個FCN網絡,包含兩部分,(1)由一系列帶跳躍結構的翻卷積網絡生成的1通道的像素級前景分割結果。(2)對每個目標物體生成一個角度的map。對於每一個前景像素,計算其相對於物體中心的相關角度,同時,將角度量化為8個不同的類別,生成8個通道,如下圖。對角度的預測可以增強模型對目標物邊界細節信息的編碼。預訓練模型的輸入為三通道的彩色圖像,輸出為9通道(1通道的前景+8通道的角度)

  (1)External memory

     為了在已分割的目標物決定下一個尋找的方向。該文結合external memory用於提供以前所有步驟得到的邊界細節信息。該文假設完整的分割信息有助於網絡分析目標物體重合的原因,同時,決定下一個感興趣區域。feature map共計有10個通道,第一個通道用於添加基於先前操作產生的新的像素。其他通道用於保存輸入圖片。

  (2)Box network

     該模塊用於定位下一個感興趣物體的位置。卷積網絡輸出一個大小為H'xW‘xL的feature map u_t,使用CNN對整副圖像進行激活操作過於復雜,而且處理過程較為低效。簡單的池化操作無法保存位置,該文選擇動態池化操作來提取空間維度上的有用信息。通過增加一個權重,由於一次單向過程無法為上層網絡提供足夠的信息進而可以准確的將框畫出,該文采用LSTM,每次輸入一個維度為L的向量來觀察不同位置的信息。所有位置的初始化為均勻分布。

              將LSTM的隱層狀態送入一個線性網絡層中用於預測框的坐標。將框參數化為:

                                                    

同時,尺度因子也會被線性層進行預測,用於將patch恢復至原圖大小。

  子區域的提取

     該文參考DRAW采用高斯插值核從輸入x中提取一個HxW的patch。同時,用d_t與原圖進行拼接。該模型輸出一個矩形框定位不同形狀的目標物體。索引i,j代表HxW維度的patch。a,b代表原始圖像的位置。Fx,Fy為維度的矩陣,代表原圖 (a,b)位置對提取的patch中(i,j)的作用大小。

為由box network預測得到的高斯插值核的均值與方差。

  (3)Segmentation network

     分割網絡首先利用卷積網絡生成一個feature map v_t,然后應用一個基於跳躍結構的翻卷積網絡來進行上采樣將低分辨率恢復至全部尺寸的分割結果。經過一個全卷積層,得到一個patch-level的分割預測熱圖接着,利用計算得到的高斯核將預測的patch重新映射為原圖,學習好的放大預測的框,常量抑制框外的像素,用sigmoid函數產生0至1的分割值。

  (4)Scoring network

     為了得到圖像中目標物體的個數,同時為了完成序列化處理過程,該文增加了一個scoring network。該文中的score 模型提取box network 和segmentation network中隱層狀態的信息,來產生一個0至1的分數。

     終止條件:該文整個模型的訓練的序列長度為目標物體最大數量加1。進行inference時,當輸出的score 降到0.5時就結束迭代過程。同時,損失函數有利於scores的降低。

 損失函數

     總的損失為三個損失分支的和:(1)分割IoU loss Ly(2)box IoU loss Lb(3)分數交叉熵損失Ls 在實驗中將損失相關系數固定為1。

 

(a)匹配IoU損失(mIoU)實例分割的一個主要挑戰,是模型的預測輸出與實例ground truth的匹配。該文通過最大化權重進行預測與ground truth的二分圖匹配。通過匹配方法,可以使損失函數對ground-truth的實例不敏感。不同於直接懲罰假正與假反的分割方法,本文的匹配權重為一對分割結果IoU的分數。通過Hungarian算法進行計算得到matching。通過此算法並不需要反向傳播來優化此網絡。

(b)Soft box IoU loss:雖然可以根據生成的框的四個坐標中推出准確的IoU的值。但若兩個框不重復,則其梯度就會消失。不利於基於梯度下降法的學習。該文提出了一個較寬松的box IoU。同樣利用高斯核將一個patch重新映射原始的大小。對框的ground truth 進行padding,通過匹配預測得到的框與padding 后的ground truth進行匹配得到mIoU。匹配到的ground truth 在寬和高上進行縮放操作。

(c)monotonic score loss:為了滿足可以自行停止迭代操作。網絡首先應該輸出更多確信的目標物。該文設計一個損失函數促進score的降低。score為1的迭代與先前的下界進行比較,而0的會與接下來score的上界進行比較。

訓練過程

      Booststrap training:box與segmentation網絡以來彼此的輸出來決定下一時間段的動作。針對這兩個網絡的本質的特點:該文提出了一個bootstrap 訓練方法:先使用分割與box的ground truth對網絡分開進行預訓練。后期,將ground truth替換為模型預測的數值。

     Scheduled sampling:為了平滑各個階段之間輸出的變化,提出了scheduled sampling。在網絡的輸入階段,漸漸的將ground truth移除。在訓練時,外部存儲結構中的輸入有一個隨即開關,利用與ground truth 或者前階段網絡的輸出中匹配最大的部分進行實例分割。在訓練的結束階段,整個模型完全依賴於來自前幾步的輸出。與預測過程相同。

實驗

Reference

      [1] S. Antol, A. Agrawal, J. Lu, M. Mitchell, D. Batra, C. L.Zitnick, and D. Parikh. VQA: Visual question answering. In ICCV, 2015. 1
      [2] M. Bai and R. Urtasun. Deep watershed transform for instance segmentation. CoRR, abs/1611.08303, 2016. 5
      [3] D. Banica and C. Sminchisescu. Second-order constrained parametric proposals and sequential search-based structured prediction for semantic segmentation in RGB-D images. In
CVPR, 2015. 5


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM