論文閱讀--**Residual Conv-Deconv Grid Network for Semantic Segmentation**


論文閱讀--Residual Conv-Deconv Grid Network for Semantic Segmentation

image-20200825103925289

(別吐槽水印, arxiv上就長這樣)

原文鏈接:https://arxiv.org/pdf/1707.07958.pdf

論文簡介:

本文提出了一個新的網絡結構GridNet, 本意是用於圖像語義分割, 作者提出, 現在經典的神經網絡都是一個流, 使用下采樣操作減少參數量(比如經典的CNN). 這種操作的問題在於, 當應用這種操作於圖像語義分割中時, 會導致分辨率的缺失. 因此作者提出了一個不同於傳統流的網絡, 使得網絡可以在不同分辨率下工作,

image-20200825105259251

具體的模型結構如圖,這是一個3行k列的表格. 每一行被稱為一個"流(stream)", 是經典的CNN結構, 可以參考resnet, 也就是說這個圖中共有三個流, 這三個流分別在不同的分辨率下工作, 最上方的流\(X_0\)是全連接的CNN, 在原始分辨率下工作. 連接這三個流的是k個列, 從左到右可以看出按照顏色可以分為\(\frac{k}{2}\)\(\frac{k}{2}\)黃. 粉色的列做的是subsampling, 將最上方的流\(X_0\)的輸出結果下采樣, 送到\(X_1\)\(X_2\), 如此, 保證\(X_1\)\(X_2\)可以在較低的分辨率下工作, 而低分辨率 == 較大的感受野 == 較多的上下文信息. 隨后的黃色列做的是upsampling, 目的自然是將\(X_1\)\(X_2\)收取的較為豐富的上下文信息的運算結果指導\(X_0\)的計算結果, 並在最終獲取一個原始分辨率之下的語義分割.

其實整體思想明顯是借鑒了ResNet和U-net的encoder-decoder思想, 但是能以不同的分辨率進行工作是一個比較好的思路.

有趣的是作者也提出了, 他們的網絡可以輕松的變成U-net或者其他CNN, 只需要改變一下路徑:

image-20200825111659035

所以說這是個不同CNN的縫合怪也沒什么問題.

總之, 該網絡的優勢在於

  1. 不同維度並行工作

2)全局信息指導局部特征--非常有助於上下文信息的獲取


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM