"Zero-Shot" Super-Resolution using Deep Internal Learning【ZSSR】【閱讀筆記】


項目地址:http://www.wisdom.weizmann.ac.il/~vision/zssr/

  之前利用深度學習構建的SR模型都是有監督學習,利用了大量的外部信息。但是由於這些LR-HR對大部分是通過對HR進行downscale而得到的,因此與實際的LR-HR對的關系有一定的差距。導致這些模型在非理想條件下表現並不好

  本文就是針對這個情況,提出利用圖像內部信息的循環性,構建了第一個無監督學習的SR網絡。在測試時利用輸入的test image,訓練一個小的image-specific網絡。

  傳統的無監督圖像增強方法主要依賴的是圖像內部圖像塊之間的歐拉相似度,使用k-近鄰搜索。如果某一個特征在圖像中沒有出現過,效果就不會很好;而且這些相似結構如果大小不統一效果也不好。本文提出的方法則是將輸入首先downscale得到一組相對於輸入是low-resolution的數據,學習這組圖片和輸入之間的LR-HR關系,再利用學到的關系生成HR output。不會產生上述問題,而且占用的資源少,速度快。對於非理想條件圖像效果好,而且適用於任意大小的輸入和任意的放大比例。如果可以增加額外的信息(如downscale kernel, blur kernel)作為先驗,效果會更好。

 

 

  文章基於這樣一個事實:自然圖像中包含大量的內部信息重復。單一圖像的內部熵要遠小於自然圖像的general collection得到的外部熵,因此內部圖像統計值相比外部統計值可以提供更強的預測能力。

  文章中提出的具體訓練方法:對於一張測試圖片,先downscale得到多張圖片($I_0, I_1, I_2, ..., I_n$)稱為HR father.再將每一個HR father downscale指定的倍數,然后進行旋轉和鏡像處理,得到一組對應的LR son。訓練HR father和LR son之間的映射關系。對於放大倍數s,采用gradually training的方式,即applied for several intermediate scale-factors。網絡一共8層,每層64channel,使用ReLU作為激活函數。類似SRCNN,訓練時采用pre-upsampling的結構,用L1作為損失函數。最后結果取8個output(四個旋轉角度*水平垂直旋轉操作)的中位數,再結合反投影操作優化。

  實驗還發現:

  • 在LR son中添加一些噪聲有利於表現。原因是image-specific信息會在尺度間重復,但噪聲產生的artifacts不會。因此添加噪聲網絡學到的更穩健。
  • 對於圖像中的一些高度重復且特別小的區域,internal information特別有效,后續可以嘗試結合internal 和external information
  • 監督學習方法在得到測試圖像的blur kernel時對於表現沒有提升,原因是他們時針對一個特定的kernel進行的徹底地訓練和優化地。但是ZSSR會有提升,這說明了一個准確的下采樣模型比精細的圖像先驗要重要得多;使用了錯誤的下采樣模型會導致過光滑的SR結果。

 

entropy 熵:

信息熵是信息量的期望,一件事不確定性越高,熵就越高,所包含的信息量越大。$H(x)=-\sum_{i=1}^{m}p_i(x)logp_i(x)$

圖像的熵計算的是像素概率的期望,熵越大圖像內部越均勻,圖像越清晰。

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM