论文阅读--**Residual Conv-Deconv Grid Network for Semantic Segmentation**


论文阅读--Residual Conv-Deconv Grid Network for Semantic Segmentation

image-20200825103925289

(别吐槽水印, arxiv上就长这样)

原文链接:https://arxiv.org/pdf/1707.07958.pdf

论文简介:

本文提出了一个新的网络结构GridNet, 本意是用于图像语义分割, 作者提出, 现在经典的神经网络都是一个流, 使用下采样操作减少参数量(比如经典的CNN). 这种操作的问题在于, 当应用这种操作于图像语义分割中时, 会导致分辨率的缺失. 因此作者提出了一个不同于传统流的网络, 使得网络可以在不同分辨率下工作,

image-20200825105259251

具体的模型结构如图,这是一个3行k列的表格. 每一行被称为一个"流(stream)", 是经典的CNN结构, 可以参考resnet, 也就是说这个图中共有三个流, 这三个流分别在不同的分辨率下工作, 最上方的流\(X_0\)是全连接的CNN, 在原始分辨率下工作. 连接这三个流的是k个列, 从左到右可以看出按照颜色可以分为\(\frac{k}{2}\)\(\frac{k}{2}\)黄. 粉色的列做的是subsampling, 将最上方的流\(X_0\)的输出结果下采样, 送到\(X_1\)\(X_2\), 如此, 保证\(X_1\)\(X_2\)可以在较低的分辨率下工作, 而低分辨率 == 较大的感受野 == 较多的上下文信息. 随后的黄色列做的是upsampling, 目的自然是将\(X_1\)\(X_2\)收取的较为丰富的上下文信息的运算结果指导\(X_0\)的计算结果, 并在最终获取一个原始分辨率之下的语义分割.

其实整体思想明显是借鉴了ResNet和U-net的encoder-decoder思想, 但是能以不同的分辨率进行工作是一个比较好的思路.

有趣的是作者也提出了, 他们的网络可以轻松的变成U-net或者其他CNN, 只需要改变一下路径:

image-20200825111659035

所以说这是个不同CNN的缝合怪也没什么问题.

总之, 该网络的优势在于

  1. 不同维度并行工作

2)全局信息指导局部特征--非常有助于上下文信息的获取


免责声明!

本站转载的文章为个人学习借鉴使用,本站对版权不负任何法律责任。如果侵犯了您的隐私权益,请联系本站邮箱yoyou2525@163.com删除。



 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM