BSRGAN | 一種針對真實圖像退化的盲圖像超分模型


1. 摘要

眾所周知,當圖像超分的預假設退化模型與真實圖像的退化方式不匹配時,模型的性能會出現性能下降,甚至負面效果現象。盡管已有集中退化模型考慮的額外的影響因素(比如模糊核以及程度),但是它們仍然無法有效覆蓋真實圖像的多樣性退化方式。

為解決該問題,本文設計了一種更復雜但實用的退化模型,它包含對模糊、下采樣以及噪聲退化的隨機置換(也就是說每種退化對應多種類型,且順序會進行隨機調整)。具體來說,模糊退化通過兩個卷積(各向同性與各向異性高斯模糊)進行模擬;下采樣從最近鄰、雙線性以及雙三次插值中隨機挑選;噪聲則通過不同噪聲水平的高斯噪聲、不同壓縮質量的JPEG壓縮、逆轉ISP生成的傳感器噪聲等。

為驗證所設計的新的退化模型的有效性,我們訓練了一個深度盲ESRGAN超分模型並將其對不同退化的合成、真實圖像進行處理。實驗結果表明:新的退化模型有助於顯著提升深度超分模型的實用性,為RealSR應用提供了一種有效的解決方案。

本文的主要貢獻包含以下幾點:

  • 提出了一種針對SISR的實用退化模型,它考慮並設計了更復雜的退化空間;
  • 基於上述所設計的退化模型合成的訓練數據訓練了盲SISR,所得模型在不同類型真實退化數據上取得了非常好的效果;
  • 據我們所知,本文是首個針對廣義盲超分采用手工方式設計退化模型的方案;
  • 本文突出了精確的退化模型對於DNN-SRSR實用的重要性。

論文: https://arxiv.org/abs/2103.14006

代碼: https://github.com/cszn/BSRGAN

2. 前人的工作總結

由於本文主要聚焦於“如何設計一種實用退化模型”並用於訓練深度盲SISR模型。所以我們先來看一下已有退化模型存在的問題,然后再引出本文的方案。

現有的圖像超分大多采用bicubic或者blur-down方式制作訓練數據;稍微復雜點的則采用模糊、下采樣、噪聲組合的方式。噪聲往往假設為加性高斯白噪聲,它往往難以匹配真實圖像的噪聲分布;事實上,噪聲往往源於傳感器噪聲和JPEG壓縮噪聲,而這兩種噪聲通常具有信號依賴性、非均勻性。無論模糊退化精確與否,如果噪聲不能有效匹配均會導致嚴重的超分性能下降。也就是說,現有的退化模型面對真實圖像退化是仍有很大的改善空間。

除了上述人工模擬退化外,還有一些其他盲圖像超分方案。大概有這么幾個研究方向:

  • 先對LR圖像估計退化參數,然后采用非盲方案生成HR圖像。然而非盲方案往往對退化誤差非常敏感,因此生成的結果要么過度銳利、要么過度平滑;
  • 同時進行模糊核與HR圖像估計,比如IKC。然而這些方法並沒有將噪聲納入考慮,往往導致不精確的模糊核估計,進而影響HR重建質量。
  • 采用監督方式采集LR/HR數據對,比如RealSR、DRealSR。然而成對訓練數據的收集成本非常高,同時所學習得到的模型會受限於LR域圖像。
  • 基於非成對訓練數據,采用類似CycleGAN的思路進行模型的訓練或者采用KernelGAN從Source域圖像估計模糊核,然后對Source與Target兩個域圖像同時進行退化制作訓練數據。盡管這類方法精確的退化模糊核估計非常關鍵,如果模糊核估計不准確會導致模型性能變得比較差。
  • 據我們所知,尚無深度盲SISR可以直接用於廣義圖像超分。

3. 本文方法

在提出所設計的退化模型之前,我們再來看一下關於退化模型的幾點影響因素:

  • 從傳統退化模型的角度來看,模糊、下采樣以及噪聲會影響真實圖像的退化;針對此,一種可能的方式之提升退化模型空間,使得盡可能大並與真實退化盡可能接近。
  • HR與LR可能均存在噪聲與模糊,因此沒有必要采用模糊/下采樣/噪聲生成LR圖像;針對此,我們采用隨機置換方式擴展退化空間
  • 傳統退化模型的模糊核空間會隨尺度變化,這使得實際大尺度因子確定比較棘手;針對此,我們可以利用小尺度的模糊核的分析計算設計大尺度因子
  • 盡管bicubic退化並不適用於真實LR圖像,但是它可以用於數據增強,並且一種一種清洗和銳化圖像的比較好的選擇。針對此,對於大尺度因子我們可以在退化之前先執行一次bicubic下采樣。

不失一般性,本文主要針對廣泛采用的x2和x4兩個尺度設計退化模型。接下來,我們將從四個角度(模糊、下采樣、噪聲以及隨機置換策略)來介紹退化模型。

3.1 模糊

模糊是一種常用的圖像退化。我們提出從HR與LR兩個空間對模糊建模。一方面,傳統的SISR退化先對HR進行模糊然后再下采樣;另一方面,真實LR圖像可能是模糊的,因此在LR空間進行模糊建模是可行的。

針對SISR,我們采用兩個高斯模糊:$B_{iso}$ (表示各項同性高斯核)、$B_{ansio}$(表示各向異性高斯核)。考慮到HR與LR圖像可以被兩個模糊操作進行退化,模糊退化空間得到了極大的擴展。

在模糊核設計方面,尺寸在7×7, 9×9, ⋯ ,21×21之間均勻采樣;各項同性高斯核的核寬從[0.1, 2.4] (x2)、 [0.1, 2.8] (x4)之間均勻采樣;對於各項異性高斯核,旋轉角度從[0, π]之間均勻采樣,每個周長度從[0.5, 6] (x2)與[0.5, 8] (x4)之間均勻采樣。采用Reflection填充以確保模糊輸出的空間一致性。

3.2 下采樣

在下采樣方面,可能最直接的方法是最近鄰插值。然而所得到的LR圖像會存在朝左上角
0.5×(s−1) 像素不對齊問題。作為補救措施,我們采用2D線性網絡插值方法將21×21各項同性高斯核的中心移動0.5×(s−1)像素,先卷積然后最近鄰下采樣,我們采用$D_{nearest}^s$表示這種類型的下采樣。
此外,我們還采用的雙三次與雙線性插值方法,分別表示為$D_{bilinear}^s$, $D_{bicubic}^s$
。更進一步定義上下采樣方法$D_{down-up}s=D_{down}{s/a}D_{up}^a$,它先按照尺度s/a下
采樣,然后按照尺度a上采樣。這里的插值方法從雙線性、雙三次中隨機選擇,尺度a從[0.5,s]中采樣。

很明顯,上述四種下采樣方法在HR空間具有模糊操作,而$D^s_{down−up}$ 可以對LR空間引入上采樣模糊。在實際應用時,我們對上述四種下采樣均勻采樣選擇並對HR圖像下采樣。

3.3 噪聲

因其可以通過不用的源導致,真實圖像中的噪聲無處不在。除了廣泛采用的高斯噪聲外,我們所設計的退化模型還考慮了JPEG壓縮噪聲以及傳感器噪聲。接下來,我們將針對這三類噪聲進行介紹。

3.3.1 高斯噪聲

$N_G$當對噪聲一無所知時,高斯噪聲假設是一種最保守的選擇。為合成高斯噪聲,我們采用了3D零均值高斯噪聲模型$N(0,Σ)$。該噪聲模型具有兩個特例:(1) 當$Σ=σ^2I$時,它退化后廣泛采用的加性高斯噪聲模型;(2) 當$Σ=σ^2I$時,它退化后廣泛采用的灰度加性高斯噪聲模型。在我們所設計的退化模型中,我們采用高斯噪聲進行數據合成。具體來說,廣義噪聲與兩種特殊情況的選擇概率分別為0.2, 0.4, 0.4。對於σ來說,它從范圍1/255, 2/255, ⋯ , 25/255 內均勻選擇。

3.3.2 JPEG壓縮噪聲

$N_{JPEG}$在帶寬與空間減少方面,JPEG是最廣泛采用的圖像壓縮標准。對於高壓縮情形,它帶來了煩人的8x8塊偽影/噪聲。壓縮程度會受到壓縮因子影響,其范圍為[0, 100]。當壓縮質量大於90時,一般不會導致明顯的偽影。在我們所設計的退化模型中,JPEG的質量因子從[30, 95]之間均勻選擇。由於JPEG是最流程的圖像格式,我們以概率0.75和1采用兩個JPEG壓縮,后者為最終的退化操作。

3.3.3 相機傳感器噪聲

$N_S$在數碼相機中,輸出圖像由raw傳感器數據經由ISP處理得到。Brooks等人設計了一種傳感器噪聲合成方法並成功的設計了一種有效的Raw圖像降噪模型。如果ISP流水線不進行降噪,傳感器噪聲會引入非高斯噪聲惡化輸出圖像。為合成這類噪聲,我們通過逆ISP流水線得到raw圖像,並添加傳感器噪聲到合成raw圖像。 按照AdobeDNG方案,這里的前向ISP流水線包含去馬賽克(采用matlab中的demosaic)、曝光補償(全局尺度從[$2^{−0.1}$, $2^{0.3}$]選擇)、白平衡(紅藍增益從[1.2, 2.4]中均勻選擇)、XYZ(D50)顏色空間轉換(raw數據頭信息中抽取)、RGB顏色空間轉換、色調映射(手動選擇最佳擬合曲線)、gamma校正等。注:我們以概率0.25執行該噪聲合成操作。

3.4 隨機置換

盡管傳統的退化模型簡單、方便,但難以覆蓋真實LR圖像的退化空間。一方面,真實LR圖像可以是HR圖像的噪聲、模糊、下采樣以及JPEG壓縮版本;另一方面,退化模型假設LR圖像是HR圖像的雙線性下采樣、模糊以及噪聲版本。也就是說,LR圖像可以是按照模糊、下采樣、噪聲不同順序得到。因此,我們在新的退化模型中設計了一種隨機置換策略。具體來說,對退化序列${B_{iso}, B_{aniso}, D^s, NG, N_{JPEG},N_S}$進行順序隨機置換,隨機置換可以大幅擴展退化空間。

  1. 首先,其他退化模型(比如bicubic以及其他傳統退化模型)僅僅是本文退化模型的特例;
  2. 其次,模糊退化空間可以通過四種下采樣中的模糊以及兩種模糊操作的組合得到擴展;
  3. 然后,噪聲特性會受模糊核下采樣而出現變換,進一步擴展了退化空間。
    在這里插入圖片描述
    上圖給出了本文所提出退化模型的示意圖。對於HR圖像,我們可以通過調整不同的退化操作、退化參數生成不同的LR圖像。對於x4尺度,我們在退化之前以0.25概率額外執行了雙線性/雙三次下采樣。

為更好的理解所設計的退化模型,有必要添加以下討論分析。

  • 退化模型主要用於合成退化LR圖像。它最直接的應用是基於成對LR/HR圖像訓練深度盲圖像超分。具體來說,退化模型可以基於大尺度HR圖像數據生成無限對齊的訓練數據,從而不會受有限數據、不對齊問題約束。
  • 因其包含過多退化參數與隨機置換策略,所提退化模型不適用於模擬已退化LR圖像。
  • 盡管該退化模型可以生成某些真實場景鮮少出現的極限退化,但這仍有助於提升深度盲圖像超分的泛化性能。
  • 具有大容量的DNN具有單模型處理不同退化的能力,比如DnCNN可以處理不同倍率、不同程度JPEG壓縮、不同噪聲水平,且具有與VDSR相當性能。
  • 我們可以通過調整退化參數,添加更多合理的退化類型以改善特定應用的實用性。

4. 實驗

超分模型並非本文核心,現有超分網絡均可作為選擇,本文選擇了ESRGAN作為基線模型,並做了幾點改動:(1) 由於本文的目的是:在未知退化前提下,解決更廣義的盲圖像超分。訓練數據方面采用DIV2K、Flickr2K、WED以及源自FFHQ的2000人臉圖像;(2)采用了更大的圖像你塊72×72;(3) 損失方面采用了L1、VGG感知、PatchGAN三個損失的組合,組合系數1, 1, 0.1。

在訓練超參方面,優化器為Adam,batch=48,固定學習率1×$10^{−5}$。整個訓練大約花費10天(亞馬遜雲,4個V100)。

4.1 測試數據集

在這里插入圖片描述
與此同時,我們還提供了兩個數據集:DIV2K3D與RealSRSet。兩者信息如下:

RealSRSet:包含20個從網絡下載或者現有測試集中挑選的真實圖像;
DIV2K3D:它基於DIV2K驗證集采用三種不同退化類型制作。這三種退化類型分別是:(1) 各項異性高斯模糊+x4最近鄰下采樣;(2) 各向異性高斯模糊+x2最近鄰下采樣+x2雙三次下采樣+JPEG壓縮(壓縮范圍為[41, 90]);(3) 本文所提退化模型。

4.2 DIV2K3D實驗

在這里插入圖片描述
上表&上圖給出了不同超分模型在DIV2K3D數據集上的性能對比與視覺效果對比。從中可以看到:

  • 由於RRDB與ESRGAN是在簡單的雙三次退化數據集上所訓練,它們在DIV2K3D上的表現並不好。
  • 由於考慮更實用的退化,FSSR、RealSR的表現要比ESRGAN更優。
  • 對退化類型1方面,由於在類似退化數據集上進行的訓練,IKC取得了很好的PSNR與SSIM指標;而RealSR取得了最佳LPIPS指標;對於其他兩個類型,這些方法表現出了嚴重的性能下降。
  • 本文所提BSRNet方法取得了整體最佳的PSNR與SSIM指標;所提BSRGAN取得了整體最佳LPIPS指標。
  • 在視覺質量方面,IKC與RealSR難以移除噪聲重建銳利邊緣;而FSSR可以重建銳利邊緣但同時引入了偽影問題;本文所提BSRGAN取得了最佳視覺質量。

4.3 RealSRSet實驗

在這里插入圖片描述
上表給出了不同方法在RealSRSet數據上的性能對比。由於RealSRSet的真值不可知,我們采用了無參考圖像質量評價方法(NIQE、NRQM、PI)進行度量。從上表可以看到:BSRGAN並未取得最佳指標。但是BSRNet取得了更好的視覺感知質量,見下圖對比。比如:BSRGAN可以移除未知傳感器噪聲、未知復合噪聲同時重建銳利邊緣和細節;相反,FSSR與RealSR生成某些高頻偽影。這種定量與定性指標的不一致性意味着:無參考IQA並不能總是匹配視覺感知質量,IQA應該隨新的SISR方法更新迭代。我們進一步還認為:SISR的IQA應該隨圖像退化類型而更新演變。
在這里插入圖片描述

5. 最后


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM