Learning a Single Convolutional Super-Resolution Network for Multiple Degradations 論文總結


Learning a Single Convolutional Super-Resolution Network for Multiple Degradations 論文總結

Abstract

現存問題:現有的基於cnn的單幅圖像超分辨率(SISR)方法大多假設低分辨率(LR)圖像是從高分辨率(HR)圖像中雙三次下采樣的。當真正的退化不遵循這一假設時,不可避免地會導致性能降低。此外,這種只針對單一退化方式的模型很難處理多種退化的問題。

解決方法:提出了一個具有維數拉伸策略的通用框架,使單個卷積超分辨率網絡能夠獲得SISR退化過程中的兩個關鍵因素:模糊內核和噪聲等級,並將這兩個因素作為輸入。因此,該框架能夠處理多個甚至空間變異退化,大大提高了其實用性。

Introduction

在典型的SISR框架中,LR圖像y通常以以下方式產生:

其中x⊗k表示HR圖像x與模糊核k進行卷積,↓s 表示隨后進行的以s為比例系數的下采樣操作。n通常是標准差(噪聲等級)為σ的高斯白噪聲(AWGN)。

SISR方法大致可分為三類:

  1. 基於插值的方法:如最近鄰法、雙線性插值法和雙三次插值法,簡單有效,但性能有限。

  2. 基於模型的優化方法:通過利用強大的圖像先驗(如非局部自相似先驗、稀疏先驗和去噪先驗),基於模型的優化方法可以靈活地重構相對高質量的HR圖像,但通常涉及到耗時的優化過程。基於模型優化方法的典型缺點就是非端到端的學習方式,涉及手工設計參數。

  3. 判別學習方法:性能較好,在本篇論文中我們主要研究了用於SISR的判別CNN方法。

本篇論文的主要貢獻

  • 我們為SISR提出了一個簡單有效且可擴展的深度CNN框架。該模型不局限於雙三次退化假設,可以適用於多種甚至空間變異退化。

  • 我們提出了一種新的維度拉伸策略來解決LR輸入圖像、模糊核和噪聲之間的維度不匹配問題。雖然該策略是為SISR提出的,但它是通用的,可以擴展到其他任務,如去模糊。

  • 我們證明了從合成訓練數據中學習的卷積超分辨率網絡不僅可以在合成LR圖像上產生與目前最先進的SISR方法相競爭的結果,而且可以在真實LR圖像上產生視覺上可信的結果。

Method

退化模型

在解決SISR問題之前,我們需要知道退化模型並不只有上文的公式(1)。另一個實用的退化模型為

其中↓為雙三次下采樣器。公式(2)對應的是去模糊問題,其次是一個雙三次退化的SISR問題。因此,它可以受益於現有的去模糊方法和基於雙三次退化的SISR方法。但由於空間有限,我們只考慮更廣泛的退化模型,即公式(1)。然而我們的方法是通用的,可以很容易地擴展到處理公式(2)。

下面詳細討論模糊核k、噪聲n和下采樣器↓

模糊核:與圖像去模糊不同,SISR的模糊核設置通常比較簡單。最常見的選擇是用標准差或核寬度參數化的各向同性高斯模糊核。在實踐中,更復雜的模糊內核模型用於去模糊任務,如運動模糊。經驗和理論分析表明,精確模糊核的影響遠遠大於復雜圖像先驗的影響。具體來說,當假定的模糊核比真實的模糊核更平滑時,恢復的圖像會過度平滑。大多數SISR方法都會出現這種情況。另一方面,當假定的內核比真正的內核尖銳時,會出現高頻振鈴現象。

振鈴效應:圖像復原中損失高頻信息的話會產生振鈴效應。圖像處理中,對一幅圖像進行濾波處理,若選用的頻域濾波器具有陡峭的變化,則會使濾波圖像產生“振鈴”,所謂“振鈴”,就是指輸出圖像的灰度劇烈變化處產生的震盪,就好像鍾被敲擊后產生的空氣震盪。

噪聲:由於低分辨率,LR圖像通常帶有噪聲。直接對帶有噪聲的輸入進行超分辨率會放大不需要的噪聲,會使視覺效果變差。為了解決這個問題,最直接的方法是先去噪,然后提高分辨率。然而,去噪預處理步驟往往會丟失細節信息,從而影響后續的超分辨率性能。因此,聯合進行去噪和超分辨率是非常必要的。

下采樣器:現有文獻考慮了兩種下采樣器,包括直接下采樣器和雙三次下采樣器。在本文中,我們考慮了雙三次下降采樣器,因為當k為模糊核且噪聲水平為0時,公式(1)轉化為廣泛使用的雙三次退化模型。需要指出的是,與一般退化模型中變化的模糊核和噪聲不同,下采樣器是固定的。

從最大后驗(maximum a posteriori)框架的角度

雖然現有的基於cnn的SISR方法不一定是在傳統最大后驗框架下派生出來的,但它們有着相同的目標。我們重新審視和分析了SISR的總體最大后驗框架,旨在找出最大后驗原理與CNN工作機制之間的內在聯系。從而對CNN結構設計有更多的了解。

由於SISR的多解性質,需要使用正則化來約束解決方案。從數學上講,通過解決下面的最大后驗問題,可以估算出LR圖像y的HR對應值

其中是數據保真項,Ф(x)是正則項(或先驗項),λ是權衡參數。

公式(3)主要說明兩點:

  1. 估計方案不僅要符合退化過程,還要具有清晰HR圖像所具有的性質。

  2. X^是一個關於LR圖像y,模糊核k,噪聲等級σ ,權衡參數λ的方程。

因此,SISR的最大后驗方案(非盲目的)可以表述為

其中Θ 表示最大后驗推測的參數

將CNN作為方程4的判別學習解,我們可以得到以下幾點啟示:

  • 由於數據保真項對應退化過程,因此退化過程的准確建模對SISR的成功起着關鍵作用。然而,現有的基於cnn的雙三次退化SISR方法實際上是為了解決以下問題

可以看出公式(5)的實用性比較局限

  • 為了設計更實用的SISR模型,最好是學習像公式(4)這樣的映射函數,因為它覆蓋了更廣泛的退化。需要注意的是,由於權衡參數λ可以歸進於σ中,公式(4)可以重新表述為

  • 考慮到最大后驗框架(公式(3))可以在相同的先驗圖像下實現一般圖像的超分辨率,在統一的CNN框架下聯合進行去噪和SISR是很直觀的。此外,最大后驗推理的參數主要對先驗進行建模;因此,CNN有能力通過一個模型處理多個退化。

從最大后驗框架的角度,可以看到SISR的目的是學會一個映射函數而不是。然而通過cnn對直接建模並不容易。原因在於三個輸入y, k和σ有不同的維度,我們將提出一個簡單的維度拉伸策略來解決這個問題。

維度拉伸

假設輸入包含一個p×p尺寸的模糊核,等級為σ的噪聲,以及大小為WxHxC(C為通道數)的LR圖像。首先將模糊核向量化為p^2×1的向量,然后通過主成分分析(PCA)技術投影到t維線性空間中,再連接低維向量和噪聲水平(用v表示),最后拉伸到大小為W×H×(t + 1)的退化映射M, 其中第i個映射的所有元素就是vi。通過這些處理,退化映射就可以與LR圖片連接了,這就使CNN處理三個輸入成為可能。考慮到退化映射可能是不均勻的,這種簡單的策略可以很容易地用於處理空間變異退化。

提出的網絡

我們提出了多重退化超分辨率網絡SRMD。SRMD的獨特之處在於它將LR圖像和退化映射連接起來作為輸入。為了證明維度拉伸策略的有效性,我們使用了沒有復雜結構的簡單CNN。

網絡如下:

  • 對於一張比例系數為s的LR圖像,SRMD首先將LR圖像和尺寸為W×H×(C + t + 1)的退化映射拼接后作為輸入。

  • 然后使用3×3級聯的卷積層進行非線性映射。每一層由Conv,BN,ReLU三種操作組成。具體來說,除了最后一個卷積層只包含一個“Conv”操作外,其余每個卷積層都采用“Conv + BN + ReLU”。

  • 在最后一個卷積層后添加子像素卷積層,其作用是將大小為W×H×s^2C的多個HR子圖像轉換為大小為sW×sH×C的單張HR圖像

對於比例系數2、3、4,我們都設置卷積層數為12,每層的feature map數為128。我們分別學習每個比例系數的模型。我們還通過去除第一個卷積核中噪聲等級映射的連接和使用新的訓練數據進行微調的方式學習了無噪聲退化模型(即SRMDNF)。

另需指出的兩點:

  • 因為CNN訓練中有ReLU,BN,Adam這些先進方法,可以很容易的訓練網絡。因此沒有使用殘差學習策略。

  • 因為退化涉及到噪聲,雙三次插值的LR圖像會加劇噪聲的復雜性,從而增加訓練難度。因此沒有使用雙三次插值的LR圖像。

盲模型

為了增強CNN對SISR的實用性,最直接的方法似乎是學習一個綜合了不同退化的訓練數據的盲模型。然而這樣的盲模型並沒有達到預期的效果。

  1. 當模糊核模型比較復雜時(如運動模糊),性能會嚴重下降。例如:給定一個HR圖像,一個模糊核和對應的LR圖像,將HR圖像向左移動一個像素,將模糊核向右移動一個像素,將得到相同的LR圖像。因此,一個LR圖像可能對應於具有像素位移的不同HR圖像。這反過來又會加重像素平均問題,通常會導致過度平滑的結果(個人解釋:在不知道模糊核信息的情況下,一個LR圖像可以對應多個像素平移的HR圖像。而盲模型只從LR圖像中學習,不學習模糊核,噪聲這些參數,這就導致盲模型只能通過像素平均的方式來解決這個問題,因此性能會嚴重下降)

  2. 沒有專門設計體系結構的盲模型泛化能力較差,在實際應用中表現較差。

相比之下,多重退化的非盲模型幾乎沒有像素平均問題,具有更好的泛化能力。

  1. 退化映射包含了warping information ,因此可以使網絡具有空間轉換能力。可以將模糊核和噪聲等級導致的退化映射作為空間轉換器的輸出。

  2. 通過使用退化映射對模型進行錨定,非盲模型可以很容易地泛化到不可見的退化,並且能夠控制數據保真項和正則化項之間的權衡。

Experiments

訓練數據生成和網絡訓練

具體的細節設置看原文吧。這里只放一下損失函數

雙三次退化上的實驗

雖然我們的目標不是僅僅處理雙三次退化,而是學習單個網絡來處理多個退化。然而,為了顯示維度拉伸策略的優點,我們也將所提出的方法與其他專門針對雙三次退化的基於cnn的方法進行了比較。

總結:

  • 從圖中可以看出在雙三次退化、不考慮噪聲的情況下SRMDNF總體成績最好。

  • 能取得最好成績的原因可能是因為在最大后驗框架中,多種退化的SRMDNF共享了最大后驗框架中相同的先驗,從而促進了隱式先驗學習,有利於PSNR的改進。這也可以解釋為什么具有多個尺度的VDSR可以提高性能。

  • SRMD因為綜合考慮了多種退化和噪聲的情況,在圖中的實驗設置中性能稍比SRMDNF差。

一般退化上的實驗

總結:

  • 當假定的雙三次退化與真實的雙三次退化相背離時,VDSR的性能嚴重惡化。

  • SRMD比NCSR和IRCNN產生更好的結果,並且優於DnCNN+SRMDNF。其中,SRMD相對DnCNN+SRMDNF的PSNR增益隨着核寬度的增大而增大,驗證了聯合去噪和超分辨率的優點。

  • 通過設置適當的模糊核,該方法在處理直接下采樣器的退化時具有良好的性能。

  • 從圖6可以看出,NCSR和IRCNN產生的視覺效果比VDSR更好,因為它們假定的性能下降與實際情況相符。然而,它們無法恢復SRMD和SRMDNF那樣銳利的邊緣。

空間變異退化的實驗

為了證明SRMD對空間變異退化的有效性,我們合成了一個空間變異模糊核和噪聲水平的LR圖像。圖7顯示了空間變異退化的SRMD的可視化結果。可以看出,所提出的SRMD對於恢復潛在的HR圖像是有效的。注意,模糊核假設是各向同性高斯分布。

真實圖像上的實驗

由於沒有ground-truth HR圖像,我們只提供可視化比較。

 

 

總結:

  • 從可視化結果可以看出,SRMD比其他方法生成的HR圖像更具有視覺上的合理。

  • 從圖8可以看出,VDSR的性能受到壓縮效應的嚴重影響。Waifu2x雖然可以成功地去除壓縮效應,但無法恢復銳利的邊緣。相比之下,SRMD不僅可以去除不滿意的壓縮效應,還可以產生尖銳的邊緣。

  • 從圖9可以看出,VDSR和SelfEx都傾向於產生過於平滑的結果,而SRMD可以恢復有着更好亮度和gradient statistics of clean images的清晰圖像。

Conclusion

  • 在本文中,我們提出了一種有效的超分辨率網絡,該網絡具有較高的可擴展性,可以通過單一模型處理多種退化。

  • 與現有的基於cnn的SISR方法不同,本文提出的模型以LR圖像及其退化映射作為輸入。具體來說,退化映射是通過對退化參數(即模糊內核和噪聲等級)進行簡單的維度拉伸得到的。

  • 在合成LR圖像上的結果表明,所提出的模型不僅能在雙三次退化方面產生最先進的結果,而且在其他退化甚至空間變異退化方面也有良好的表現。

  • 對真實LR圖像的重構結果表明,該方法能較好地重構出視覺上可信的HR圖像。

綜上所述,所提出的超分辨率模型為實際的基於cnn的SISR應用提供了一個可行的解決方案。

參考資料

振鈴效應

https://www.cnblogs.com/wxl845235800/p/7692788.html


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM