GLEAN: Generative Latent Bank for Large-Factor Image Super-Resolution【閱讀筆記】


CVPR21 有被后面的視覺效果驚艷到。

現在利用GAN的SR方法主要可以分為兩類:

  1. 利用adversarial loss。 這種情況下generator要同時捕捉自然圖像的特點,又要保留gt的特征。這就限制了generator估計真實圖像流型的能力,導致結果出現artifacts和不自然的紋理。

  2. GAN inversion。這種方法比較典型的就是PULSE。利用一個預訓練的GAN,對其生成過程進行invert,相當於是在學得的自然圖像流型上尋找一個corrupt后與LR最為接近的。這種方法的問題在於低維的latent code及圖像空間中的constraints不足以guide復原過程。同時是以一種迭代式的方式進行,比較消耗時間。

本文提出的方法是一種新的利用GAN的方法,有一些類似第二種方法。使用一個預訓練的GAN,找到一個最佳的latent vector進行重建。只不過尋找這個vector的過程用一個encoder進行學習。這樣,捕捉自然圖像的特點這個任務和保留gt的特征這個任務就分開了。

 

中間黃色部分的Generative Latent Bank是一個預訓練的StyleGAN。區別在於,這里的輸入是多個multi-resolution的特征,作為StyleGAN的condition。輸出不直接由GAN進行,而是由decoder進行。

下面直接通過幾個實驗結果說明為什么這么設計:

  • multi-resolution encoder:

 

 如果只guided by 低維vector,空間信息無法被很好保留,網絡只能恢復一些全局屬性(如頭發顏色,pose),細節的恢復並不好。隨着更細的特征被傳入,輸出更加接近gt,圖像質量也更好。這說明卷積特征對於恢復細節和局部結構都非常重要,只有latent vector是不夠的。

  • lantent bank:

 

 去掉了中間的bank,逐步地將特征傳給decoder。由於缺少先驗信息,網絡要同時生成真實細節和保留gt的特征,使得output在結構和紋理上都存在flaws。

  • decoder:

 

去掉decoder后雖然輸出還不錯但仍存在一些細小的artifacts。decoder可以使網絡以一種coarse-to-fine的方式整合信息,細節更為自然。同時,從encoder到decoder的multi-scale skip connection強化了encoder中捕捉到的空間信息特征,使得latent bank可以更專注於細節的生成。

 

 

 實際上本文的方法在某種程度上和RefSR也有所關聯,都利用了額外的HR圖像作為imagery dictionary。但本文的方法不依賴於特定的component或是圖片,dictionary的size和多樣性都更大,也不需要進行復雜的global matching,component detection/selection等操作。

 

本文的方法還有一個額外的應用:Image Retouching,可以用來作為一個image retouching tool 消除一些artifacts

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM