论文阅读--Residual Conv-Deconv Grid Network for Semantic Segmentation
(别吐槽水印, arxiv上就长这样)
原文链接:https://arxiv.org/pdf/1707.07958.pdf
论文简介:
本文提出了一个新的网络结构GridNet, 本意是用于图像语义分割, 作者提出, 现在经典的神经网络都是一个流, 使用下采样操作减少参数量(比如经典的CNN). 这种操作的问题在于, 当应用这种操作于图像语义分割中时, 会导致分辨率的缺失. 因此作者提出了一个不同于传统流的网络, 使得网络可以在不同分辨率下工作,
具体的模型结构如图,这是一个3行k列的表格. 每一行被称为一个"流(stream)", 是经典的CNN结构, 可以参考resnet, 也就是说这个图中共有三个流, 这三个流分别在不同的分辨率下工作, 最上方的流\(X_0\)是全连接的CNN, 在原始分辨率下工作. 连接这三个流的是k个列, 从左到右可以看出按照颜色可以分为\(\frac{k}{2}\)粉\(\frac{k}{2}\)黄. 粉色的列做的是subsampling, 将最上方的流\(X_0\)的输出结果下采样, 送到\(X_1\)和\(X_2\), 如此, 保证\(X_1\)和\(X_2\)可以在较低的分辨率下工作, 而低分辨率 == 较大的感受野 == 较多的上下文信息. 随后的黄色列做的是upsampling, 目的自然是将\(X_1\)和\(X_2\)收取的较为丰富的上下文信息的运算结果指导\(X_0\)的计算结果, 并在最终获取一个原始分辨率之下的语义分割.
其实整体思想明显是借鉴了ResNet和U-net的encoder-decoder思想, 但是能以不同的分辨率进行工作是一个比较好的思路.
有趣的是作者也提出了, 他们的网络可以轻松的变成U-net或者其他CNN, 只需要改变一下路径:
所以说这是个不同CNN的缝合怪也没什么问题.
总之, 该网络的优势在于
- 不同维度并行工作
2)全局信息指导局部特征--非常有助于上下文信息的获取