引言
基於低分辨率的圖像恢復高分辨圖像具有重要意義,近年來,利用深度學習做單張圖像超分辨主要有兩個大方向:1、減小失真度(distortion, 意味着高PSNR)的圖像超分辨,這類方法主要最小化均方誤差;2、提高感知質量(perception)的圖像。這類方法主要利用GAN來做約束,使得生成的圖像和真實的高分辨率圖像盡可能符合相同分布。這兩大方向存在一種tradeoff,因為通常低失真度(高PSNR)的圖像往往感知質量不高,不符合人眼認知,而高感知質量(本文用NRQM指標度量,高NRQM)的圖像,用PNSR指標衡量較低。如下圖:
當前有工作考慮分別用兩個網絡訓練生成低失真度和高感知質量的圖像,再進行插值融合。然而圖像的objective quality和perception quality由圖像的不同部分影響,如果將目標圖像作為整體優化,提高objective quality時,perception quality會下降,反之亦然。因此本文提出一種新的兩圖像(低失真度和高感知圖像)融合策略。本文利用小波變換將圖像分解成低頻部分和高頻部分,低頻部分影響objective quality,高頻部分影響perception quality.
Motivation(動機)
論文將利用CX算法得到的高分辨圖像$A_p$(high perception quality)、EDSR算法得到的高分辨圖像$A_o$(high objective quality)、GroundTruth進行Haar小波分解,得到一個低頻子帶和三個高頻自帶,並展示它們的直方圖,發現$A_o$圖像低頻部分和GroundTruth對應的低頻部分分布很接近,而$A_p$的三個高頻子帶的分布和GroundTruth對應的高頻子帶分布很接近。
算法:
將$A_o$分解為 $LL^{o}, LH^{o}, HL^{o}, HH^{o}$, $A_p$分解為$LL^{p}, LH^{p}, HL^{p}, HH^{p}$, 融合后的圖像子帶$LL^{r}$, $LH^{r}$, $HL^{r}$, $HH^{r}$.算法總體框架如下:
利用LSE網絡,以$LL^{o}$作為輸入恢復$LL^{r}$,利用WDST網絡,以$LH^{o}$,$LH^{p}$,$LH^{r}$作為網絡輸入,其中$LH^{r}$作為可訓練參數(具體細節后面再說)。$HL^{r}$,$HH^{r}$同理可得。
LSE網絡如下:
WDST網絡如下:
第一部分:重構$LL^{r}$
考慮GroundTruth的$LL^{gt}$子帶和$LL^{o}$最相似,直接用$LL^{o}$恢復。利用VDSR網絡思想,網絡學習$LL^{gt}$和$LL^{o}$的殘差。損失函數如下:
其中$LL^{r}$為$LL^{o}$和網絡的輸出。重構網絡為LSE網絡。
訓練細節:
網絡的訓練以學習率1e-3,SGD優化算法(動量為0.9,衰減因子1e-4),梯度裁剪完成。
第二部分:重構$LH^{r}$, $HL^{r}$, $HH^{r}$
拿$LH^{r}$舉例,用$LH^{o}$和$LH^{p}$融合得到$LH^{r}$.考慮到$LH^{p}$中的小波系數內容比$LH^{o}$的豐富,非0系數更多,期望將$LH^{p}$中的細節小波系數變換到$LH^{o}$中,因此將$LH^{p}$作為風格輸入(style input),$LH^{o}$作為內容輸入(content input)。不同於傳統的風格遷移算法——輸入是像素值,這里的輸入小波系數,因此首先將小波系數歸一化到0-1(值減去最小值,再除以最大值)
損失函數有三個:content loss($L_c$), style loss($L_s$)和$L_1$范數損失(保持重構小波系數的稀疏性)。如下:
其中
這里實際上是基於預訓練的VGG作為WDST網絡,只有一個參數是可訓練的,那就是$LH^{r}$.
訓練細節:用的L-BFGS優化算法.$\alpha=1e-3, \omega=0.2, \beta=1, \gamma=1e-5$
實驗結果
定量結果(PSNR/NRQM):
定性結果:
對比實驗:
1、考慮不同小波分解產生的影響:
根據實驗可以看出,用不同小波分解對實驗結果影響不大。
2、不同高頻子帶重構,對最終的影響
可以看出三個高頻子帶都有貢獻,相比於$LH, HL$,$HH$的貢獻最小,因為$HH$為對角方向信息,不如$LH, HL$他們攜帶的信息多。
相關鏈接