使用深度學習的超分辨率介紹 An Introduction to Super Resolution using Deep Learning


使用深度學習的超分辨率介紹

關於使用深度學習進行超分辨率的各種組件,損失函數和度量的詳細討論。

介紹

超分辨率是從給定的低分辨率(LR)圖像恢復高分辨率(HR)圖像的過程。由於較小的空間分辨率(即尺寸)或由於退化的結果(例如模糊),圖像可能具有“較低分辨率”。我們可以通過以下等式將HR和LR圖像聯系起來:LR = degradation(HR)

顯然,在應用降級函數時,我們從HR圖像獲得LR圖像。但是,我們可以反過來嗎?在理想的情況下,是的!如果我們知道確切的降級函數,通過將其逆應用於LR圖像,我們可以恢復HR圖像。

但是,存在問題。我們通常不知道降解功能。直接估計逆退化函數是一個不適定的問題。盡管如此,深度學習技術已證明對超分辨率有效。

本博客主要介紹如何使用有監督的培訓方法,使用深度學習來執行超分辨率。還討論了一些重要的損失函數和度量。許多內容來源於讀者可以參考的文獻綜述

監督方法

如前所述,深度學習可用於在給定低分辨率(LR)圖像的情況下估計高分辨率(HR)圖像。通過使用HR圖像作為目標(或地面實況)和LR圖像作為輸入,我們可以將其視為監督學習問題。

在本節中,我們以卷積層的組織方式對各種深度學習方法進行分組。在我們進入這些小組之前,我們將介紹數據准備和卷積類型。用於優化模型的損失函數在本博客的末尾單獨列出。

准備數據

獲得LR數據的一種簡單方法是降低HR數據。這通常通過模糊或添加噪聲來完成。較低空間分辨率的圖像也可以通過諸如雙線性雙立方插值的經典上采樣方法來縮放還可以引入JPEG和量化偽像來降低圖像質量。

需要注意的一點是,建議將HR映像存儲為未壓縮(或無損壓縮)格式。這是為了防止由於有損壓縮導致的HR圖像質量的下降,這可能給出次優性能。

卷積的類型

除了經典的2D Convolutions之外,還可以在網絡中使用幾種有趣的變體來改善結果。膨脹Atrous)卷繞可以提供更有效的視野,因此使用大距離分開的信息。跳過連接空間金字塔池密集塊激發了低級和高級功能的結合,以提高性能。

來源

上圖提到了許多網絡設計策略。您可以參考本文以獲取更多信息。有關深度學習中常用的不同類型卷積的入門讀物,您可以參考此博客

第1組 - 預上采樣

在該方法中,首先內插低分辨率圖像以獲得“粗略”高分辨率圖像。現在,CNN用於學習從插值的低分辨率圖像到高分辨率圖像的端到端映射。直覺是,使用傳統方法(例如雙線性插值)首先對低分辨率圖像進行上采樣可能更容易,然后細化結果,而不是學習從低維空間到高維空間的直接映射。

對於使用此技術的某些型號,您可以參考本文的第5頁優點在於,由於上采樣是通過傳統方法處理的,因此CNN僅需要學習如何細化粗略圖像,這更簡單。此外,由於我們在這里沒有使用轉置卷積,因此可能會繞過棋盤格然而,缺點是預定義的上采樣方法可能放大噪聲並導致模糊。

第2組 - 后上采樣

在這種情況下,低分辨率圖像被傳遞到CNN。使用可學習層在最后一層執行上采樣。

該方法的優點在於在較低維空間中(在上采樣之前)執行特征提取,因此降低了計算復雜度。此外,通過使用可學習的上采樣層,可以端到端地訓練模型。

第3組 - 逐步上采樣

在上述組中,即使計算復雜度降低,也只使用單個上采樣卷積。這使得大型縮放因子的學習過程更加困難。為了解決這個缺點,拉普拉斯金字塔SR網絡(LapSRN)和Progressive SR(ProSR等工作采用了漸進式上采樣框架在這種情況下的模型使用級聯的CNN以在每個步驟以較小的縮放因子逐步重建高分辨率圖像。

通過將困難的任務分解為更簡單的任務,大大降低了學習難度並且可以獲得更好的性能。此外,可以整合課程學習等學習策略,進一步降低學習難度,提高最終表現。

第4組 - 迭代上下采樣

另一種流行的模型架構是沙漏(或U-Net)結構。諸如Stacked Hourglass網絡之類的一些變體使用串聯的幾個沙漏結構,在上采樣和下采樣的過程之間有效地交替。

該框架下的模型可以更好地挖掘LR-HR圖像對之間的深層關系,從而提供更高質量的重建結果。

損失函數

損失函數用於測量生成的高分辨率圖像和地面實況高分辨率圖像之間的差異。然后使用該差異(誤差)來優化監督學習模型。存在幾類損失函數,其中每種損失函數都懲罰所生成圖像的不同方面。

通常,通過加權和總結從每個損失函數單獨獲得的誤差來使用多於一個的損失函數。這使模型能夠同時關注由多個損失函數貢獻的方面。

total_loss = weight_1 * loss_1 + weight_ 2 * loss_2 + weight_3 * loss_3

在本節中,我們將探討用於訓練模型的一些流行的損失函數類。

像素丟失

像素損失是最簡單的一類損失函數,其中生成的圖像中的每個像素直接與地面實況圖像中的每個像素進行比較。使用諸如L1或L2損耗之類的流行損失函數或諸如Smooth L1損失之類的高級變體。

PSNR度量(下面討論)與像素差異高度相關,因此最小化像素損失直接最大化PSNR度量值(指示良好性能)。然而,像素損失沒有考慮圖像質量,並且模型經常輸出感知上不令人滿意的結果(通常缺少高頻細節)。

內容丟失

該損失基於其感知質量評估圖像質量。一種有趣的方法是通過比較生成圖像的高級特征和地面實況圖像。我們可以通過預先訓練的圖像分類網絡(例如VGG-Net或ResNet)傳遞這些圖像來獲得這些高級特征。

上面的等式計算地面實況圖像和生成的圖像之間的內容損失,給定預訓練網絡(Φ)和該預訓練網絡的層(1),在該處計算損耗。這種損失促使生成的圖像在感知上與地面實況圖像相似。因此,它也被稱為感知損失

紋理損失

為了使生成的圖像具有與地面實況圖像相同的樣式(紋理,顏色,對比度等),使用紋理損失(或樣式重建損失)。Gatys等人描述的圖像紋理al,被定義為不同特征通道之間的相關性。特征通道通常從使用預訓練的圖像分類網絡(Φ)提取的特征圖獲得。

特征圖之間的相關性由Gram矩陣(G)表示,Gm矩陣是矢量化特征圖ij圖層之間的內積l (如上所示)。一旦計算了兩個圖像的Gram矩陣,計算紋理損失是直截了當的,如下所示:

通過使用這種損失,模型被激勵創建逼真的紋理和視覺上更令人滿意的結果。

總變異損失

總變差(TV)損耗用於抑制生成的圖像中的噪聲。它取相鄰像素之間的絕對差值之和,並測量圖像中的噪聲量。對於生成的圖像,電視丟失計算如下:

這里,分別i,j,k迭代高度,寬度和通道。

對抗性損失

生成性對抗網絡(GAN)已越來越多地用於包括超分辨率在內的多種基於圖像的應用。GAN通常由兩個神經網絡系統組成 - 發電機和鑒別器 - 相互決斗。

給定一組目標樣本,Generator會嘗試生成可以欺騙Discriminator的樣本,使其相信它們是真實的。鑒別器嘗試從假(生成)樣本中解析實際(目標)樣本。使用這種迭代訓練方法,我們最終得到一個真正擅長生成類似於目標樣本的樣本的Generator。下圖顯示了典型GAN的結構。

引入了基本GAN架構的進步以提高性能。例如,Park et。al使用特征級鑒別器來捕獲真實高分辨率圖像的更有意義的潛在屬性。您可以查看博客,以獲得有關GAN進展的更詳細的調查。

通常情況下,訓練有對抗性損失的模型具有更好的感知質量,即使他們可能會因為像素丟失訓練而失去PSNR。一個小的缺點是,GAN的訓練過程有點困難和不穩定。然而,積極研究穩定GAN訓練的方法。

度量

一個重要問題是我們如何定量評估模型的性能。許多圖像質量評估(IQA)技術(或度量)用於相同的。這些指標可大致分為兩類 - 主觀指標和客觀指標。

主觀指標基於人類觀察者的感知評估,而客觀指標基於試圖評估圖像質量的計算模型。主觀指標通常更“感知准確”,但是這些指標中的一些不方便,耗時或昂貴。另一個問題是這兩類指標可能彼此不一致。因此,研究人員經常使用兩個類別的指標顯示結果。

在本節中,我們將簡要探討一些廣泛使用的度量標准,以評估我們的超分辨率模型的性能。

PSNR

峰值信噪比(PSNR)是常用的客觀度量,用於測量有損變換的重建質量。PSNR與地面實況圖像和生成的圖像之間的均方誤差(MSE)的對數成反比。

在上面的公式中,L是最大可能像素值(對於8位RGB圖像,它是255)。不出所料,由於PSNR只關心像素值之間的差異,因此它並不能很好地代表感知質量。

SSIM

結構相似性(SSIM)是用於基於三個相對獨立的比較(即亮度,對比度和結構)來測量圖像之間的結構相似性的主觀度量。摘要,SSIM公式可以作為獨立計算的亮度,對比度和結構比較的加權乘積。

在上面的公式中,α,β和γ分別是亮度,對比度和結構比較函數的權重。SSIM公式的常用表示如下所示:

在上面的公式中μ(I)表示特定圖像的平均值,σ(I) 表示特定圖像的標准偏差,σ(I,I’)表示兩個圖像之間的協方差,並且C1, C2是為避免不穩定而設置的常數。為簡潔起見,本博客中未解釋術語的重要性和確切的推導,感興趣的讀者可以查看本文第2.3.2節

由於圖像統計特征或失真可能分布不均勻,因此在本地評估圖像質量比在全球范圍內應用圖像質量更可靠。將圖像分成多個窗口並平均在每個窗口獲得的SSIM的平均SSIM(MSSIM)是一種在本地評估質量的方法。

無論如何,由於SSIM從人類視覺系統的角度評估重建質量,它更好地滿足了感知評估的要求。

其他IQA分數

沒有解釋,下面列出了評估圖像質量的一些其他方法。感興趣的讀者可以參考本文了解更多細節。

  • 平均意見得分(MOS)
  • 基於任務的評估
  • 信息保真標准(IFC)
  • 視覺信息保真度(VIF)

結論

這篇博客文章介紹了培訓超分辨率深度學習模型的一些介紹性材料和程序。確實有更先進的技術引入了最先進的技術,可以產生更好的性能。此外,研究諸如無監督超分辨率,更好的歸一化技術和更好的代表性指標等途徑可以大大推動這一領域。鼓勵感興趣的讀者通過參與PIRM挑戰等挑戰來試驗他們的創新想法











免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM