Deep Learning for Image Super-resolution: A Survey


摘要:

  圖像超分辨率(SR)是提高計算機視覺中圖像和視頻分辨率的一類重要圖像處理技術。近年來,利用深度學習技術實現圖像超分辨率技術取得了顯著進展。在調查中,我們的目的是給出在一個系統的方式中使用深度學習方法來實現圖像超分辨率的最新進展。我們可以將現有的SR技術研究大致分為三類

有監督的SR(supervised SR)、無監督的SR(unsupervised SR)和特定領域的SR(and domain-specifific SR)。此外,我們還討論了一些其他重要的問題,比如公開的基准數據集和性能評估指標。

最后,我們在總結這項調查時,強調了未來的幾個方向和有待社會進一步解決的問題

索引詞:—Image Super-resolution, Deep Learning, Convolutional Neural Networks (CNN), Generative Adversarial Nets (GAN)生成的對抗性網絡

介紹:

  圖像的超分辨率(SR)是從低分辨率圖像中恢復高分辨率圖像是計算機視覺和圖像處理中的重要一類圖像處理技術。它具有廣泛的現實應用,如醫學成像,監視和安全 等等。除了提高圖像感知質量,它還有助於改善其他計算機視覺任務。一般來說,這個問題非常具有挑戰性,而且本質上是ill-posed的,因為總是有多個HR圖像對應一個LR圖像。在論文中,提出了多種經典的SR方法,包括:
基於預測的方法,

基於邊緣的方法,

統計方法

基於塊的方法
以及稀疏表示方法等。
  近年來,隨着深度學習技術的迅速發展,基於深度學習的SR模式一直在積極探索並且在不同基准的SR中達到最先進的性能,各種各樣的深度學習方法已經被用於處理SR任務,從早期的基於卷積神經網絡(CNN)方法到最近使用生成對抗網(GAN)前景的SR方法。總的來說,使用深度學習技術的SR算法族主要有以下幾個方面的不同:不同類型的網絡架構,不同類型的損失函數,不同類型的學習原則和策略等。
  在這篇文章中,我們關於圖像超分辨率與深度學習的最新進展給出了一個全面的概述。盡管已經存在一些超分辨率的論文,但是我們的工作與他們的不同,我的是基於深度學習的SR技術,而早期的大部分工作的目標是調查傳統的SR算法,或一些研究主要集中於提供基於完整參考指標或人類視覺感知的定量評估。不同於現有的調查,本調查采用獨特的基於深度學習的觀點來系統和全面的回顧最近的SR技術的進展。
這項調查的主要貢獻有三方面: 
1) 我們全面回顧了基於深度學習的圖像超分辨率技術,包括問題設置、基准數據集、性能指標、一系列具有深度學習的SR方法、特定領域的SR應用等
2) 我們以層次化和結構化的方式,系統地概述了基於深度學習的SR技術的最新進展,並總結了有效SR解決方案中每個組件的優勢和局限性
3) 我們討論挑戰和開放的問題,並確定新的趨勢和未來的方向,為社區提供有洞察力的指導 。在接下來的章節中,我們將介紹利用深度學習實現圖像超分辨率的最新進展的各個方面。
  在接下來的章節中,我們將介紹利用深度學習實現圖像超分辨率的最新進展的各個方面。Fig.1以層次結構的方式顯示本調查中所涉及的圖像超分辨率的分類.第2部分給出了問題定義並回顧了主流數據集和評估指標。第三部分對監督超分辨率的主要組成部分進行了模塊分析。第四部分簡要介紹了無監督超分辨方法。第五部分介紹了一些流行的特定領域的SR應用。第六部分討論未來的方向和開放的問題

 

 3 監督式的SR

3.1 SR的框架

現存的SR框架可以分為四類:pre-upsampling SR, post-upsampling SR, progressive upsampling SR and iterative up-and-down sampling SR

3.1.1  Pre-upsampling SR(先上采樣超分辨率)

方法:利用傳統的上采樣算法獲得更高分辨率的圖像,然后使用深度神經網絡對其進行細化

優點:①較困難的上采樣任務是通過預定義的傳統算法完成的,深度cnn只需要對粗圖像進行細化,大大降低了學習難度

   ②這些模型可以以任意大小和縮放因子的插值圖像作為輸入並給出與單尺度SR模型性能相當的精確結果

缺點:預先定義的上采樣方法通常會引入一些副作用(例如,噪聲放大和模糊),而且由於大多數操作是在高維空間中執行的,時間和空間成本比其他框架要高得多

3.1.2  Post-upsampling SR(后上采樣超分辨率)

目的:為了解決Pre-upsampling SR計算效率問題,充分利用深度學習(DL)技術自動提高圖像分辨率

方法:在取代先上采樣操作,在低維空間進行mapping操作,然后在最后放置一個端到端可學習的上采樣層

優點:計算量大的非線性卷積特征提取過程只發生在低維空間中,並且分辨率只有在網絡的最末端才會增加。使得計算復雜度和空間復雜度大大降低,同時訓練速度和推理速度也大大提高

缺點:一方面,上采樣操作只有一步,大大增加了大尺度因子的學習難度,

另一方面,每個尺度因子都需要一個單獨的SR模型,無法滿足多尺度SR的需要

3.1.3 Progressive Upsampling Super-resolution(漸進式上采樣超分辨率)

目的:解決后上采樣的缺點

方法:該框架下的模型基於串聯的cnn,逐步重構出更高分辨率的圖像。即:在每一階段,圖像上采樣到一個更高的分辨率,並由cnn進行細化

優點:通過將困難task分解為簡單task,該框架下的模型不僅極大地降低了學習難度,獲得了更好的性能,特別是在large factors的情況下,而且在不引入過多的空間和時間代價的情況下解決了多尺度的超分辨率問題。

缺點:多階段模型設計復雜,訓練難度大,需要更多的設計結構設計指導和更高級的訓練策略。

3.1.4 Iterative Up-and-down Sampling Super-resolution(迭代式的上下采樣)

目的:為了更好地捕捉LR-HR圖像對的相互依賴性

方法:一種稱為back-projection的迭代過程被納入到SR中用來縮小LR-HR之間的關系。迭代的使用這種過程來進行微調,也就是先計算重建的錯誤,然后用它來調節HR圖像的亮度。這種思想被用來構建了DBPN(deep back-projection networks),結合着上-下采樣層,可以交替的在上采樣層和下采樣層之間互相連通,最終使用中間的HR圖像的特征圖的串聯得到最后的結果。

優點:可以獲得LR-HR圖像之間深層次的關系,並以此獲得更好的重建結果

缺點:對back-projection的設計標准並不明確,結構很復雜,需要手動設計。有很大的探索與改進空間

3.2上采用的方法

上采樣:在應用在計算機視覺的深度學習領域,由於輸入圖像通過卷積神經網絡(CNN)提取特征后,輸出的尺寸往往會變小,而有時我們需要將圖像恢復到原來的尺寸以便進行進一步的計算(e.g.:圖像的語義分割),這個采用擴大圖像尺寸,實現圖像由小分辨率到大分辨率的映射的操作,叫做上采樣(Upsample)。

【https://www.zhihu.com/question/48279880/answer/525347615】

除了在模型中何處應用上采樣操作外,如何實現上采樣也非常重要

 

3.2.1 基於插值的上采樣

圖像插值,又稱圖像縮放,指的是調整數字圖像的大小,幾乎被所有與圖像相關的應用程序所使用。傳統的插值方法有最近鄰插值、雙線性和雙三次插值、Sinc和Lanczos重采樣等

最近鄰插值:

它為每個要插值的位置選擇最近的像素值,而不考慮其他像素。因此,這種方法速度很快,但通常會產生塊狀的結果,質量很差

雙線性插值:

雙線性插值首先在圖像的一個軸上執行線性插值,然后再在另一個軸上執行同樣操作。兩步插值過程如圖3所示。雖然每一步采樣值和采樣位置都是線性的,但得到的接受場大小為2×2的二次插值,在保持較快速度的同時比最近鄰插值的性能要好得多。
 

 

圖3 灰板為像素坐標,藍點、黃點、綠點分別為初始像素、中間像素和最終像素。

雙三次插值:

和雙線性插值很像,在兩個維度上進行三次插值,涉及x了 4×4 的區域,效果更加平滑,但是速度慢點,這種方法也廣泛用於構建SR數據集(也就是從HR到LR的生產)以及應用於先上采樣SR框架

  總的來說,基於插值的上采樣方法只是根據圖像本身的內容來提高圖像的分辨率,而不會帶來更多的信息。相反,它們經常在SR模型中引入一些副作用,如計算復雜度、噪聲放大、結果模糊等

3.2.2 基於學習的上采樣

  為了克服基於插值的方法的缺點,以端到端方式學習上采樣操作,在超分辨率域中引入了轉置卷積層(transposed convolution layer )和亞像素層(sub-pixel layer)。

反卷積層:

反卷積是一種特殊的正向卷積,先按照一定的比例通過補 [公式] 來擴大輸入圖像的尺寸,接着旋轉卷積核,再進行正向卷積。

圖4展示了如何使用 3×3 的卷積核來獲得兩倍的上采樣。新增的像素點設置為0,然后利用一個 3×3 的卷積核(padding=1,stride=1)來執行卷積操作。首先對原圖擴大兩倍通過這樣的操作,將輸入特征圖的上采樣擴大2倍,此時接受視野最大為2x2,

 

 

 輸入是3x3(如a),論文想輸出一個6x6的,所以將輸入的按2倍擴展(如b,擴展不是padding),由之前的3x3擴展為6x6(想要輸出多大,就擴展多大),在擴展的基礎上進行padding(如圖c左,灰色虛線的最外層,則為padding的),然后用3x3的卷積核進行卷積,得到6x6的輸出

亞像素層:

如何評價超分辨率

 

 

 

 

 PSNR:比較原始圖像與生成圖像之間的偏移程度。PSNR越大,表明HR與SR偏移程度就越小

SSIM:結構像素度。SSIM從亮度,對比度和結構三個方面來評估兩幅圖片的相似性。

 

 MOS:意見平均分。每個評分人對同一幅圖的評分結果可能不一樣。但是當有多個評分人的時候,此方法還是可行的。【但是也有費力不討好】

基於上面幾種評判標准,引入了perpetual loss。即從對原圖輸入網絡中的到的特征圖與超分辨率圖片輸入網絡中得到的特征圖進行loss【即特征圖與特征圖之間計算loss】

perpetual loss 比較的是特征語義之間的差異而不是像素上的差異。

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM