MZSR:用於 Zero-Shot 超分辨率的元轉換學習



這是今年CPVR2020 一篇關於超分辨率的論文。這篇文章的創新點在於它將零次學習 (Zero-Shot Learning)和元轉換學習(Meta Transfer Learning)進行結合,提出了新的超分算法 MZSR 。

ZSSR最早被提出,將圖像內部學習用於圖像超分辨率。它能夠很好地學習圖像內部的先驗信息,從而利用這些內部信息恢復圖像高頻信息。由於 ZSSR 從一張圖像中學習,因此需要幾千次的梯度更新迭代,也就是說測試時推理時間很長。

而 MZSR則是通過元轉換學習解決測試推理時間長的問題,MZSR 在測試時只需要一次梯度更新就可以取得可觀的結果。

論文:https://arxiv.org/pdf/2002.12213.pdf
github: https://github.com/JWSoh/MZSR
在這里插入圖片描述

1. 介紹

1.1 Single Image Super-Resolution

單幅圖像超分,它是基於圖像的退化模型:
在這里插入圖片描述
其中 $I_{LR}^{k}$ 為LR圖像,$I_{HR}$ 為HR圖像,$k$ 為模糊核(blur kernel),$s$為下采樣的尺度因子,$n$為高斯白噪聲。

在SISR(單幅圖像超分)領域,大多數CNNs方法的缺點:

  • 通過使用大量的外部樣本數據進行監督學習,獲得了顯著的圖像超分效果。然而對於一張特定的待超分圖像而言,這些方法不能夠很好地利用該圖像的內部信息去進行超分。
  • 它們的應用受限於監督學習中所使用的樣本數據,例如在大多數CNNs方法的訓練中,LR圖像是通過對HR圖像進行bicubic(雙三次插值)得到的,則通過訓練得到的網絡只能對該類型的LR圖像有很好的SR(超分)效果,在真實情況下未知的超分效果卻不盡如人意,即沒有很好的泛化能力

1.2 Zero-Shot Super-Resolution

在這里插入圖片描述
ZSSR是一種完全無監督或者說自監督的方法,用於學習圖像特有的內部信息。對於任意測試圖像 $I_{LR}$ 模型都會經過訓練和測試,從而得到高分辨率圖像。在訓練時,首先將測試圖像$I_{LR}$ 用期望的下采樣核進行下采樣,生成更小的低分辨率子圖像 $I_{son}$ 。於是,$I_{LR}$ 也就成了$I_{son}$ 高分辨率的監督樣本。然后,用單個圖像生成的LR-HR對訓練CNN網絡。訓練僅僅依賴測試圖像,因此 CNN 網絡能夠學習到圖像特有的內部信息。測試時,輸入測試圖像$I_{LR}$ ,CNN 模型就能夠生成超分辨率圖像 $I_{SR}$ 。雖然ZSSR能夠SISR的兩個問題,但它在超分過程中需要上千次的梯度更新(即需要很長的推斷時間),而且ZSSR只使用了圖像的內部信息(相似的結構、模式等),沒有使用大量的外部數據信息。

1.3 Meta-Learning

Meta-Learning的目標是使網絡能夠在少量樣本的情況下快速學習一個新的任務(如人可以在只觀察幾張圖片的情況下認識一種新的動物)。meta-learning 分為 meta-training 和 meta-test 階段,meta-training 使得模型能夠適應大量不同的任務(各種不同的模糊核 ),meta-test使得模型在幾次更新后就能適應一個新的任務(未知的特定核 )。

因此本文在meta-learning和ZSSR的基礎上提出了MZSR(基於元-遷移學習的零樣本超分),MZSR首先通過大量的外部數據找到適合進行內部學習(Internal Learning)的通用初始參數,然后再進行ZSSR,即同時使用了外部和內部的信息。這樣能夠使得ZSSR只用一次梯度更新就能取得很好的超分結果,即該網絡能夠快速適應任一給定的圖像條件。

2. 本文的方法

本文主要受到MAML(與模型無關的元學習,meta-learning)和ZSSR的啟發,提出MZSR,其流程如下,主要分為三步:
在這里插入圖片描述

  1. 大規模數據訓練 Large-scale Training
    這一階段使用 大規模圖像數據集 DIV2K,並使用已知 Bicubic 降采樣生成低分辨率圖像組成成對的訓練集$(I_{HR}, I^{bic}_{SR})$。網絡采用 L1 Loss進行訓練。
    這樣做的好處:

    • 不同的超分任務間存在一些相似之處,使用外部數據先進行預訓練可以使網絡更容易學習。
    • 降低了meta-training階段的訓練難度,使其更穩定。
  2. 元轉換學習 Meta Transfer Learning
    用meta-learning(元學習)的思想,用不同的任務(模糊核$(k)$不同,基於大量外部數據生成不同的LR-HR數據對)來學習任務層面的知識(task-level knowledge),此時得到模型參數 (稱這時網絡權重為最優的初始狀態,能夠在meta-test階段通過幾次梯度更新,就可以快速地適應各種特定的任務)。
    用大量不同模糊核k合成訓練數據集$D_{meta}(I_{HR},I_{LR}^{k})$,模糊核分布$p(k)$:
    在這里插入圖片描述
    基於$D_{meta}$訓練元訓練器,$D_{meta}$分為任務級別訓練集task-level training $D_{tr}$和任務級別測試集task-level test $D_{te}$。
    對於里面每一個新任務$T_i$,參數$\theta_i$ 適用於該任務需要一次或多次梯度下降更新:
    在這里插入圖片描述
    優化好的$theta_i$要能達到以下的最小損失:
    在這里插入圖片描述
    更新$θ$即圖中$θ_M$:
    在這里插入圖片描述

  3. Meta-Test
    元測試階段就是 ZSSR, 這個階段使用模型能夠直接學習單個圖像內部信息。給定 LR 圖像,通過降采樣核生成子圖像$I_{son}$,用於訓練。但是只需要少量的梯度更新就能得到很好的效果,得到最終的模型參數 $\hat{\theta}_{k}$ (ZSSR需要數千次的更新)。
    Meta-Transfer Learning
    Meta-Test

3. 實驗

3.1 訓練細節

CNN 采用8層網絡架構,參數量為225K。對於元轉換訓練,使用DIV2K數據集作為外部數據集。對於內部循環,使用5次梯度更新,去獲得自適應參數。訓練時輸入圖像尺寸為64x64,為了應對由於基礎學習器展開過程而導致的梯度消失或爆炸問題,利用每個步驟的加權損失總和,即對每個展開步驟的其他損失進行監督。

最初始的點,除最后展開步驟外,論文平均權衡損失並降低權重。最后,加權損失收斂到最終的訓練任務損失。論文采用ADAM 優化器作為元優化器。論文也針對了不同的二次采樣方法訓練了兩種模型:直接和雙三次。

3.2 模型分析

論文針對不同的降采樣方式,對模型進行分析。

3.2.1 Bicubic 降采樣

測試數據集為 Set5,BSD100和 Urban100。論文分析YCbCr 空間下的 Y 通道的圖像PSNR 和 SSIM值。MZSR 雖然PSNR 數值與有監督學習方法有較大差距,但是MZSR在測試階段經過一次梯度更新后就能夠取得ZSSR 相當的性能表現。經過10次梯度更新后,性能能夠進一步的提升。
在這里插入圖片描述

3.2.2 多種模糊核

在這里插入圖片描述
論文分析了四種場景:嚴重混疊,各向同性高斯,非各向同性高斯和各向同性高斯,隨后進行Bicubic 下采樣。

從下表中可以看到,MZSR 在不同Kernel 上都能夠取得出色的性能。可以認為MZSR是一種快速,靈活且准確的超分辨率方法。
在這里插入圖片描述
下圖進一步說明了 MZSR 的優勢,可以看到盡管在初始點上 MZSR 生成的圖像具有明顯的偽影和噪聲,但是經過一次迭代后,MZSR 能夠生成接近HR 圖像的結果,並且在 PSNR 值上獲得了明顯的提升。相比之下預訓練網絡經過一次迭代之后,並不能有效改善圖像質量。
在這里插入圖片描述
最后是一些測試圖像局部細節的對比,驗證了MZSR 的有效性。
在這里插入圖片描述
在這里插入圖片描述
在這里插入圖片描述

4. 最后


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM