論文閱讀筆記十五:Pyramid Scene Parsing Network(CVPR2016)


論文源址:https://arxiv.org/pdf/1612.01105.pdf

tensorflow代碼:https://github.com/hellochick/PSPNet-tensorflow

基於PSPNet101的鋼鐵分割實驗:https://github.com/fourmi1995/IronSegExperiment-PSPNet

摘要

       對於不非特殊條件的場景解析仍十分困難。該文利用金字塔池化模型,融合了圖像中不同區域的上下文信息。

介紹

       分割可以預測完全理解場景,預測標簽,位置,及其形狀。目前基於FCN的分割網絡提高了理解物體的能力,但面對非特殊條件的場景識別仍有挑戰。比如相似物體的誤分類。下圖中由於船與車有相似的外形因此被誤分類為船,但結合上下文信息,船在水面上,所以應大概率判斷為一條船。

      為了更好的進行場景預測,需要結合場景信息,目前大部分基於FCN的模型大都未有效的利用圖片的上下文信息。相比以前將整張圖片送入,空間金字塔得到的空間統計信息能更有效的描述圖片中潛在的信息。

 

      與上述方法不同,該文提出的PSPNet,除了利用傳統的空洞FCN網絡,將像素級的特征送入全局金字塔池化層中,局部和全局的信息一起作用於最后的預測,對於深度學習的loss提出了一種新的優化策略。該文主要貢獻如下:

      (1)提出了金字塔場景分析網絡-基於FCN同時結合復雜的場景語義信息進行像素級預測框架。

      (2)發現高效優化ResNet網絡的策略。

        (3)建立有效進行場景分析與語義分割的體系。

相關工作:

     該文基於FCN與空洞網絡,部分網絡大致的兩個研究方向為:(1)多尺寸特征信息 -網絡的較深層包含更多的語義信息,但缺少位置等細節信息。(2)結構預測- 以前用CRF作為后處理來優化分割的結果。也有網絡通過進行端到端的訓練來增強結果。這些方法都改進了場景分析中的邊界信息。

     有基於傳統特征(非深度學習得到的特征)提取的全局語義信息,提出了全局平均池化層的FCN可以提高分割結果,但通過實驗發現這些操作提取的全局文本信息仍不足,該文利用PSPNet結合不同區域的上下文信息來增強全局信息。

金字塔場景分析網絡

    普通FCN面向復雜場景分析出現的問題總結:

                          (1)關系不匹配 - 未有效的利用圖片中的上下文信息。

                          (2)類別混亂 - 比如 mountain and hill,building and skyscraper相似的外形卻是不同的類別,解決方法是有效利用類別之間的關系。

                          (3)不明顯的類別 - 場景中包含任意尺寸大小的物體,一些重要的小物體可能檢測不到,相反,一些較大的物體超過FCN的感受野,導致無法進行連續的分割預測。因此,需要重視不同區域中不顯眼的物體。

                            總結:上述產生的誤差部分或者全部受到不同感受野的文本信息的關系與全局信息影響。一個帶有適合全局場景信息的網絡可以改善上述問題。

模型分析

    在DNN中,感受野的大小可以大致與獲得的文本信息量的多少掛鈎。雖然理論上ResNet的感受野大小要比輸入圖像的大小大,但在CNN深層網絡上的感受野實際卻較小,從而導致無法有效的結合場景信息。不同區域的全局信息有助於區分不同類別。由金字塔池化不同層得到的feature map被拉直然后進行拼接送到全連接層中進行分類。全局優先(利用多尺度信息)的目的是解決用於分類CNN(自帶全連接層,假設不同尺寸圖片的輸入 ,最后一層feature map大小有4x4,3x3,這里就出現問題)的固定尺寸的限制。

    為了減少不同子區域上下文信息的損失,該文提出全局場景優先結構夾在CNN最后一層feature map上,結合不同子區域及不同尺寸的語義信息。

 

    該模型fuse四個不同金字塔尺寸的特征,該結構將輸入的feature map分為不同的子區域同時,並生成不同位置的polling 表示,從而產生不同尺寸的輸出,為了強化全局特征的權重,在金字塔層數為N的情況下,利用一個1x1的卷積將上下文表示的維度將到1/N。然后將得到的特征通過雙線性插值上采樣至相同尺寸,進行拼接作為最終的全局金字塔池化特征。

網絡結構

    用帶有空洞卷積的預訓練的ResNet作為backbone,最后一層提取的feature map大小為輸入圖像的1/8。結構特點:相比global pooling,該模型獲取多尺寸全局信息效果更好。計算上相比dilated FCN網絡也不會增加很多,global pyramid pooling模型與FCN特征提取模型可以同時進行訓練優化。

對於基於FCN的ResNet的深層監督

    ResNet后部的網絡層學習前面層數的參差特征。該文通過額外一個loss監督某一層初始分類結果,然后通過最終的loss對參差進行學習。

    Loss1基於softmax loss用於訓練最終的分類器,在ResNet第四階段處添加了一個分類器進行輔助優化,兩個loss一起傳播,使用不同的權重,一起優化,最終將二者按權重相加進行平衡。

   測試時將輔助loss2移除,只使用效果較好的loss1進行預測。

實驗

    在ImageNet scene parsing challeng 2016 , PASCAL VOC2012 semantic segmentation, Cityscapes上進行測試

   學習策略:poly

    base learning:0.01

    power:0.9

    Momentum:0.9

    weigth decay:0.0001

    data augmentation

    batchsize:16

 

  Reference

  [1] A. Arnab, S. Jayasumana, S. Zheng, and P. H. S. Torr. Higherorder conditional random fields in deep neural networks. In ECCV, 2016. 2
  [2] V. Badrinarayanan, A. Kendall, and R. Cipolla. Segnet: A deep convolutional encoder-decoder architecture for image segmentation. arXiv:1511.00561, 2015. 6
  [3] L. Chen, G. Papandreou, I. Kokkinos, K. Murphy, and A. L.Yuille. Semantic image segmentation with deep convolutional nets and fully connected crfs. arXiv:1412.7062, 2014.1, 2, 4, 7, 8

 個人實驗結果

                      

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM