論文閱讀--Residual Conv-Deconv Grid Network for Semantic Segmentation
(別吐槽水印, arxiv上就長這樣)
原文鏈接:https://arxiv.org/pdf/1707.07958.pdf
論文簡介:
本文提出了一個新的網絡結構GridNet, 本意是用於圖像語義分割, 作者提出, 現在經典的神經網絡都是一個流, 使用下采樣操作減少參數量(比如經典的CNN). 這種操作的問題在於, 當應用這種操作於圖像語義分割中時, 會導致分辨率的缺失. 因此作者提出了一個不同於傳統流的網絡, 使得網絡可以在不同分辨率下工作,
具體的模型結構如圖,這是一個3行k列的表格. 每一行被稱為一個"流(stream)", 是經典的CNN結構, 可以參考resnet, 也就是說這個圖中共有三個流, 這三個流分別在不同的分辨率下工作, 最上方的流\(X_0\)是全連接的CNN, 在原始分辨率下工作. 連接這三個流的是k個列, 從左到右可以看出按照顏色可以分為\(\frac{k}{2}\)粉\(\frac{k}{2}\)黃. 粉色的列做的是subsampling, 將最上方的流\(X_0\)的輸出結果下采樣, 送到\(X_1\)和\(X_2\), 如此, 保證\(X_1\)和\(X_2\)可以在較低的分辨率下工作, 而低分辨率 == 較大的感受野 == 較多的上下文信息. 隨后的黃色列做的是upsampling, 目的自然是將\(X_1\)和\(X_2\)收取的較為豐富的上下文信息的運算結果指導\(X_0\)的計算結果, 並在最終獲取一個原始分辨率之下的語義分割.
其實整體思想明顯是借鑒了ResNet和U-net的encoder-decoder思想, 但是能以不同的分辨率進行工作是一個比較好的思路.
有趣的是作者也提出了, 他們的網絡可以輕松的變成U-net或者其他CNN, 只需要改變一下路徑:
所以說這是個不同CNN的縫合怪也沒什么問題.
總之, 該網絡的優勢在於
- 不同維度並行工作
2)全局信息指導局部特征--非常有助於上下文信息的獲取