dense prediction問題


dense prediction 

 

理解:標注出圖像中每個像素點的對象類別,要求不但給出具體目標的位置,還要描繪物體的邊界,如圖像分割、語義分割、邊緣檢測等等。

基於深度學習主要的做法有兩種:

  • 基於圖像分塊:利用像素、超像素塊周圍小鄰域進行獨立的分類。(在分類網絡中使用全連接層,固定圖像塊尺寸)
  • 基於全卷積網絡:對圖像進行pixel-to-pixel 的預測,可以得到任意大小的圖像分割結果,而且不需要對每個圖像塊進行分類,速度快。重要的兩點:卷積層上采樣、skip connection結構

由於全卷積網絡的各種優點,之后各種改進模型被提出來:

  • u-net(用作醫學圖像分割)對圖像進行編碼之后解碼,在編碼時同樣是卷積+下采樣的結構,為了恢復圖像的細節空間信息,在編碼與解碼過程中加入shortcut connection結構。
  • segNet結構:也是一種編碼解碼結構,無shortcut connection結構,(將最大池化索引maxpooling indices 轉移到解碼器)解碼時,不像FCN中進行upsampling 的反卷積,而是復制了最大池化索引,使得segNet 比FCN節省內存。(但是准確率不高)
  • dialated convolutions 結構:此結構不需要池化層,使用空洞卷積使得感受野指數增長,但空間維度不下降。3*3的卷積核對應5*5的視覺野。但是空洞卷積的缺點是:得到的都是高分辨率的特征圖,計算量較大。

                          

 

tips:盡管這些操作補充了細節信息,但是還是丟失部分信息,因此為了優化結果常常使用fully connected CRF 進行優化,CRF是基於圖像的顏色信息對圖像進行平滑分割的算法,改善分割結果。將灰度相近的像素標注為同一類,(相似的基於圖的圖像分割算法,在顯著性檢測 基於流行排序算法的顯著性目標分割,也是同樣的思想,要盡量保持原始的label, 又要使顏色相似的像素點歸為一類)在DeepLab 論文中使用空洞卷積和CRF:

                                        

 

 

 

 近來各種改進的模型:

  • refineNet:用於邊緣檢測,編碼解碼的改進以及殘差連接設計,編碼器是resNet101結構。解碼是多層連接。
  • PSPNet
  • large kernel matters

參考: https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw%3D%3D&idx=4&mid=2650728920&sn=3c51fa0a95742d37222c3e16b77267ca

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM