1. 摘要
盡管使用更快、更深的卷積神經網絡的單圖像超分辨率在准確性和速度上取得了突破,但一個核心問題仍在很大程度上未得到解決:當對較大的升級因子進行超分辨率時,我們如何恢復更精細的紋理細節?基於優化的超分辨率方法的行為主要是由目標函數的選擇所驅動的。最近的工作主要集中在最小化均方重建誤差上。由此得到的估計具有很高的峰值信噪比,但它們往往缺乏高頻細節,而且在感知上並不令人滿意,因為它們無法匹配在更高分辨率下的預期保真度。在該文中,提出了\(SRGAN\),一種用於圖像超分辨率(SR)的生成式對抗網絡(GAN)。據知,這是第一個能夠推斷出4個×升級因子的逼真自然圖像的框架。為了實現這一點,該文提出了一個感知損失函數,它包括一個對抗性損失和一個內容損失。對抗性損失將我們的解決推動到自然圖像流形使用鑒別網絡來區分超分辨圖像和原始真實圖像。此外,該文使用了由感知相似性引起的內容丟失(基於感知特性),而不是由像素空間中的相似性引起的內容丟失。一個廣泛的平均意見得分(MOS)測試顯示,使用SRGAN的感知質量有顯著顯著提高。
2. 結構
2.1.1 貢獻
- 通過設計的16塊深度ResNet(SRResNet)(×4)的超分網絡,在PSNR和結構相似度(SSIM)實現當初的最優
- 提出了SRGAN,這是一個基於gan的網絡優化的一個新的感知損失。在這里,我們用在VGG網絡的特征映射上計算的損失來替換基於MSE的內容損失,該損失對像素空間的變化更不變,也稱作content loss。
- 通過對來自三個公共基准數據集的圖像進行廣泛的平均意見評分(MOS)測試,證實SRGAN是用於估計具有逼真效果的超分網絡,或者叫做Photo-Realistic
2.1.2 Loss function
像MSE這樣的像素級損失函數難以處理恢復紋理等丟失的高頻細節所固有的不確定性:最小化MSE鼓勵尋找可信解的像素級平均值,這些解通常過於平滑,因此感知質量較差。
如上圖中間兩張,雖然前面的PSNR較高,但是對於人眼來說質量是較差的。一個可能的解釋是:
多個具有高紋理細節的潛在解決方案被平均,以創建一個平滑的重建,如下圖
2.2 模型
2.2.1 生成網絡G(SRResNet-)
該文的最終目標是訓練一個生成函數G,給定一個LR的圖像輸出對應的HR圖像。為了實現這一點,我們訓練一個發生成網絡作為一個由\(\theta_{G}\)參數化的前饋\(CNNG_{θ_G}\)。這里\(θ_G=\{W_{1:L};b_{1:L}\}\)表示L層深度網絡的權值和偏差,是通過優化SR特定的損失函數\(l^{SR}\)得到的。
一般的GAN網絡中的生成網絡的損失函數參數求解為:
在該篇論文中,將專門設計一個感知損失\(l^{SR}\)作為幾個損失成分的加權組合,以建模恢復的SR圖像的明顯的理想特征
2.2.2 對抗網絡
定義一個辨識器\(D_{\theta_D}\),求解該參數就可以轉化是如下的問題:
這個公式背后的一般想法是,它允許人們訓練一個生成模型G,目的是欺騙一個可微鑒別器D,該鑒別器被訓練來區分超分辨圖像和真實圖像。
2.3 Loss定義
Loss函數主要有MSE Loss,VGG Loss(Content Loss) 和Adversarial Loss三部分組成。
-
\[l_{MSE}^{SR}=\frac{1}{r^2WH}\sum\limits^{rW}_{x=1}\sum\limits_{y=1}^{rH}(I^{HR}_{x,y}-G_{\theta_G}(I^{LR}_{x,y}))^2 \]
-
VGG Loss
-
\[l^{SR}_{Gen}=\sum\limits_{n=1}^N-logD_{\theta_D(G_{\theta_G(I^{LR})})} \]
3. 結果
MOS測試指的就是認為評判。
VGG后面的數字代表特征層的位置,同時也是做消融實驗。即使與對抗性損失相結合,MSE也提供了與PSNR值最高的解決方案,然而,它在感知上比對視覺感知更敏感的損失成分更光滑,更不令人信服。這是由於基於MSE的內容損失和對抗性損失之間的競爭造成的。
但是實際的感知效果評價,SRGAN的結果要更好。感覺這也是Photo-Realistic的來源所在。
MOS測試:
下面是與其他方法的全面比較:
通過描述圖像空間內容,但對像素空間變化更不變的內容損失函數的發展,將進一步提高逼真的圖像SR結果。
4. 疑惑
SRResNet中的VGG22不是很確定如何訓練的;小編感覺沒有用Discriminator,但有不清楚VGG如何訓練的。
5. 參考
Reference:
[1]Photo-Realistic Single Image Super-Resolution Using a Generative Adversarial Network