1. 摘要
尽管使用更快、更深的卷积神经网络的单图像超分辨率在准确性和速度上取得了突破,但一个核心问题仍在很大程度上未得到解决:当对较大的升级因子进行超分辨率时,我们如何恢复更精细的纹理细节?基于优化的超分辨率方法的行为主要是由目标函数的选择所驱动的。最近的工作主要集中在最小化均方重建误差上。由此得到的估计具有很高的峰值信噪比,但它们往往缺乏高频细节,而且在感知上并不令人满意,因为它们无法匹配在更高分辨率下的预期保真度。在该文中,提出了\(SRGAN\),一种用于图像超分辨率(SR)的生成式对抗网络(GAN)。据知,这是第一个能够推断出4个×升级因子的逼真自然图像的框架。为了实现这一点,该文提出了一个感知损失函数,它包括一个对抗性损失和一个内容损失。对抗性损失将我们的解决推动到自然图像流形使用鉴别网络来区分超分辨图像和原始真实图像。此外,该文使用了由感知相似性引起的内容丢失(基于感知特性),而不是由像素空间中的相似性引起的内容丢失。一个广泛的平均意见得分(MOS)测试显示,使用SRGAN的感知质量有显著显著提高。
2. 结构
2.1.1 贡献
- 通过设计的16块深度ResNet(SRResNet)(×4)的超分网络,在PSNR和结构相似度(SSIM)实现当初的最优
- 提出了SRGAN,这是一个基于gan的网络优化的一个新的感知损失。在这里,我们用在VGG网络的特征映射上计算的损失来替换基于MSE的内容损失,该损失对像素空间的变化更不变,也称作content loss。
- 通过对来自三个公共基准数据集的图像进行广泛的平均意见评分(MOS)测试,证实SRGAN是用于估计具有逼真效果的超分网络,或者叫做Photo-Realistic
2.1.2 Loss function
像MSE这样的像素级损失函数难以处理恢复纹理等丢失的高频细节所固有的不确定性:最小化MSE鼓励寻找可信解的像素级平均值,这些解通常过于平滑,因此感知质量较差。
如上图中间两张,虽然前面的PSNR较高,但是对于人眼来说质量是较差的。一个可能的解释是:
多个具有高纹理细节的潜在解决方案被平均,以创建一个平滑的重建,如下图
2.2 模型
2.2.1 生成网络G(SRResNet-)
该文的最终目标是训练一个生成函数G,给定一个LR的图像输出对应的HR图像。为了实现这一点,我们训练一个发生成网络作为一个由\(\theta_{G}\)参数化的前馈\(CNNG_{θ_G}\)。这里\(θ_G=\{W_{1:L};b_{1:L}\}\)表示L层深度网络的权值和偏差,是通过优化SR特定的损失函数\(l^{SR}\)得到的。
一般的GAN网络中的生成网络的损失函数参数求解为:
在该篇论文中,将专门设计一个感知损失\(l^{SR}\)作为几个损失成分的加权组合,以建模恢复的SR图像的明显的理想特征
2.2.2 对抗网络
定义一个辨识器\(D_{\theta_D}\),求解该参数就可以转化是如下的问题:
这个公式背后的一般想法是,它允许人们训练一个生成模型G,目的是欺骗一个可微鉴别器D,该鉴别器被训练来区分超分辨图像和真实图像。
2.3 Loss定义
Loss函数主要有MSE Loss,VGG Loss(Content Loss) 和Adversarial Loss三部分组成。
-
\[l_{MSE}^{SR}=\frac{1}{r^2WH}\sum\limits^{rW}_{x=1}\sum\limits_{y=1}^{rH}(I^{HR}_{x,y}-G_{\theta_G}(I^{LR}_{x,y}))^2 \]
-
VGG Loss
-
\[l^{SR}_{Gen}=\sum\limits_{n=1}^N-logD_{\theta_D(G_{\theta_G(I^{LR})})} \]
3. 结果
MOS测试指的就是认为评判。
VGG后面的数字代表特征层的位置,同时也是做消融实验。即使与对抗性损失相结合,MSE也提供了与PSNR值最高的解决方案,然而,它在感知上比对视觉感知更敏感的损失成分更光滑,更不令人信服。这是由于基于MSE的内容损失和对抗性损失之间的竞争造成的。
但是实际的感知效果评价,SRGAN的结果要更好。感觉这也是Photo-Realistic的来源所在。
MOS测试:
下面是与其他方法的全面比较:
通过描述图像空间内容,但对像素空间变化更不变的内容损失函数的发展,将进一步提高逼真的图像SR结果。
4. 疑惑
SRResNet中的VGG22不是很确定如何训练的;小编感觉没有用Discriminator,但有不清楚VGG如何训练的。
5. 参考
Reference:
[1]Photo-Realistic Single Image Super-Resolution Using a Generative Adversarial Network