圖像超分辨率技術


圖像超分辨率技術

近年來,隨着高清設備的普及,用戶端顯示設備的分辨率已經普遍提升到了 2K 甚至更高的水平。相對早期的游戲或電影在上述設備上往往無法得到很好的表現,這促使了很多經典游戲和電影的高清重制工作被提上日程。在整個重制過程中,最核心的就是多媒體素材的高清重建工作,而該部分工作在過去往往只能通過聘請專業的設計師耗費大量的資源來完成。

近年來,圖像超分辨率技術的發展為上述問題提供了一個全新的解決思路。通過圖像超分辨率技術,無需耗費大量的資源即可完成多媒體內容的高清重建工作,在上述結果上,設計師僅需進行簡單少量的修改即可達到和人工設計相媲美的結果,大大簡化了工作的流程,降低了工作的成本。

另一方面,圖像超分辨率技術在相機拍攝過程中也有着廣泛的應用。近年來,隨着用戶對手機拍攝功能的重視,越來越多的廠商將手機的拍攝性能作為一個重要的賣點來進行宣傳。特別的,相機的變焦能力作為手機拍攝性能中的一個重要指標往往深受用戶的重視,其通常可以分為兩部分:光學變焦與數碼變焦。其中光學變焦通過調整鏡頭來對焦距進行調整,由於受限於設備體積的大小,調整能力比較有限。

一.超分辨率常用深度學習方案

1.       SRCNN

(Learning a Deep Convolutional Network for Image Super-Resolution, ECCV2014)

2.       2. FSRCNN

(Accelerating the Super-Resolution Convolutional Neural Network, ECCV2016)

 

 

 

圖1. 超分辨率流程

3.   ESPCN

(Real-Time Single Image and Video Super-Resolution Using an Efficient Sub-Pixel Convolutional Neural Network, CVPR2016)
4. VDSR

(Accurate Image Super-Resolution Using Very Deep Convolutional Networks, CVPR2016)

 5.   DRCN

      (Deeply-Recursive Convolutional Network for Image Super-Resolution, CVPR2016)

6.    RED

(Image Restoration Using Convolutional Auto-encoders with Symmetric Skip Connections, NIPS2016)

7.    DRRN

(Image Super-Resolution via Deep Recursive Residual Network, CVPR2017)

8.    LapSRN

(Deep Laplacian Pyramid Networks for Fast and Accurate Super-Resolution, CVPR2017)

9.   SRDenseNet

(Image Super-Resolution Using Dense Skip Connections, ICCV2017)

 

 

 

圖2. 超分辨率框架

10.   SRGAN(SRResNet)

(Photo-Realistic Single Image Super-Resolution Using a Generative Adversarial Network, CVPR2017)

11.   EDSR

(Enhanced Deep Residual Networks for Single Image Super-Resolution, CVPRW2017)

二.深度學習技術

相對的,數碼變焦則是通過算法來對圖像進行調整,以達到模擬光學變焦的目的,算法的優劣很大程度上決定了數碼變焦的倍數以及其結果的好壞。圖像超分辨率技術相對於傳統的圖像插值算法,往往能夠提供更大的變焦倍數以及更好的圖像質量,近年來廣泛被各大手機廠商所采用。如圖3所示,圖像紅框內的局部區域經過數碼變焦后的結果依然清晰。

 

 

 圖3:通過圖像超分辨率技術進行數碼變焦

(左:原始焦距圖像,右:數碼變焦圖像)

相對於上述領域,圖像超分辨率技術在很多專業領域也有應用 [1]。如醫療影像領域,高質量的醫療影像(如X射線圖像、計算機斷層掃描圖像、核磁共振圖像)對於精確地診斷患者的病因起到了至關重要的作用,然而高分辨率的醫療成像設備往往非常昂貴。通過圖像超分辨率技術,可以在硬件有限的條件下得到更高質量的醫療影像,在便於醫生做出更加准確的診斷的同時,也進一步降低了患者的開銷。


什么是圖像超分辨率?
像超分辨率是指從低分辨率圖像中恢復出自然、清晰的紋理,最終得到一張高分辨率圖像,是圖像增強領域中一個非常重要的問題。近年來,得益於深度學習技術強大的學習能力,該問題有了顯著的進展。

低分辨率圖像一般通過一系列的退化操作得到,在損失了大量細節的同時,也引入了一系列的噪聲。基於深度學習的超分辨率過程本質上就是通過網絡模型采用成對的訓練數據進行有監督學習的訓練,進而擬合上述退化操作的逆操作,得到重建后的高清圖像。不難想象,圖像超分辨率問題是一個病態問題,對於同樣一張低分辨率圖像,往往存在多張可行的高分辨率圖像。如圖4所示,對於同一張大猩猩毛發的低分辨率圖像,存在多種合理的高分辨率重建結果。

 

 

 圖4:同一張低分辨率圖像可對應多張可行的高分辨率重建結果 [2]

基於深度學習的圖像超分辨率技術解析

目前主流的圖像超分辨率技術的解決方案可以分為基於單張圖像的超分辨率技術和基於參考圖像的超分辨率技術,下面將分別對其展開介紹。

基於單張圖像的超分辨率是指通過一張輸入圖像對圖像中的高分辨率細節進行重建,最終得到圖像超分辨率的結果,是傳統圖像超分辨率問題中的主流方法。

在眾多方法中,SRCNN 模型 [3] 首次將卷積神經網絡應用於圖像超分辨率技術,相對於傳統插值、優化算法在重建質量上取得了極大的提升。如圖5所示,該模型使用一個三層的卷積神經網絡來擬合從低分辨率圖像到高分辨率圖像的函數。特別地,該方法在 FSRCNN 模型 [4] 中被進一步優化,大大提升了其推理速度。

 

 

 

圖5:SRCNN 模型中的三層卷積結構[3]

圖像超分辨率過程實際上是高頻紋理信息的生成過程,對於低頻部分通常來源於輸入的低分辨率圖像。然而,SRCNN 模型的特征學習過程不僅要學習生成高頻的信息,還需要對低頻信息進行重建,大大的降低了模型的使用效率。針對於此,VDSR 模型 [5] 首次提出了殘差學習的網絡結構。如圖6所示,通過一個殘差連接(藍色箭頭)將輸入圖像直接加到最終的重建高頻殘差上,可以顯著的提升模型的學習效率。

 

 

 

圖6:VDSR 模型中的殘差學習結構 [5]

不難發現,上述方法均是先對輸入的低分辨率圖像進行上采樣,然后再將其送入模型行進行學習,這種做法在降低了模型的推理速度的同時也大大增加了內存的開銷。如圖7所示,EPSCN 模型 [6] 首次提出了子像素卷積操作,在網絡的最后才將學習得到的特征進一步放大到目標大小,大大提升了模型的訓練效率,也使得更深卷積通道數更多的模型的訓練成為了可能。

 

 

 

圖7:ESPCN 模型中的子像素卷積操作[6]

為了進一步提升模型的表達能力,如圖8所示,SRResNet 模型 [2] 首次將被廣泛應用於圖像分類任務中的殘差模塊引入到了圖像超分辨率問題中,取得了很好的結果。此外,EDSR 模型 [7] 針對上述網絡結構提出了進一步的優化,通過去掉殘差模塊中的批量歸一化層和第二個激活層,進一步提升了模型的性能。

 

 

 

 圖8:SRResNet 模型中的殘差模塊結構 [2]

近年來,還有很多其他方法從模型的角度進行優化。如,SRDenseNet 模型 [8] 和 RDN 模型 [9] 引入了稠密卷積模塊,RCAN 模型 [10] 引入了通道注意力機制,SAN 模型 [11] 引入了二階統計信息等,上述方法均取得了非常好的結果。

如前文所述,圖像超分辨率問題是一個病態的問題,通過單純的使用平均平方誤差或平均絕對誤差損失函數進行訓練的模型往往會輸出模糊的圖像。這是因為在整個訓練過程中,模型的優化得到的最優解實際上是所有可行解的一個平均值。

針對上述問題,被廣泛應用於圖像風格遷移的感知損失函數和風格損失函數被分別引入圖像超分辨率問題中 [12, 13],某種程度上緩解了上述問題。另一方面,對抗生成損失函數在圖像生成模型中取得了很好的結果,SRGAN 模型 [2] 首次將其應用於圖像超分辨率問題,大大的提升了重建圖像的真實感。

然而上述方法仍存在一定的問題,主要是由於生成對抗網絡所依賴的模型能力有限,往往很難對自然界中的全部紋理進行表達,因此在某些紋理復雜的地方會生成錯誤的紋理(如圖9中的文字部分),帶來不好的觀感。

 

 

 

圖9:基於對抗生成損失函數的錯誤紋理生成問題 [2]

針對單張圖像超分辨率技術中生成對抗損失函數引入的錯誤紋理生成問題,基於參考圖像的超分辨率技術為該領域指明了一個新的方向。基於參考圖像的超分辨率,顧名思義就是通過一張與輸入圖像相似的高分辨率圖像,輔助整個超分辨率的復原過程。高分辨率參考圖像的引入,將圖像超分辨率問題由較為困難的紋理恢復/生成轉化為了相對簡單的紋理搜索與遷移,使得超分辨率結果在視覺效果上有了顯著的提升。

Landmark 模型 [14] 通過圖像檢索技術,從網絡上爬取與輸入圖像相似的高分辨率圖像,再進一步通過圖像配准操作,最終合成得到對應的超分辨率結果,其算法流程如圖10所示。

 

 

 圖10:Landmark 模型的算法流程圖 [14]

CrossNet 模型 [15] 進一步優化上述圖像配准過程,提出了基於光流估計的模型結構。如圖9所示,該模型通過估計輸入低分辨率圖像與參考圖像之間的光流來對超分辨率圖像進行重建。最終結果的優劣很大程度上依賴於光流計算的准確與否,而這要求輸入的低分辨率圖像與參考圖像在視角上不能存在很大的偏差,大大限制了上述模型的適用性。

 

 圖11:CrossNet 模型的光流估計與圖像編解碼結構 [15]

針對上述問題,最近發表的 SRNTT 模型 [16] 提出了基於圖像塊的全局搜索與遷移模塊,取得了非常不錯的結果。該模型通過在不同尺度上對輸入低分辨率圖像與高分辨率參考圖像中的相似圖像塊進行全局的搜索與遷移,上述過程可以很好地通過高分辨率的參考圖像中的高頻紋理對輸入低分辨率圖像進行表達,進而得到非常真實的超分辨率結果。
圖像超分辨率技術與 Microsoft 365

上文中提到的現有圖像超分辨率技術在實際應用中仍存在較大的問題,特別是在面對分辨率較小的輸入圖像時(如小於200x200的圖像),其得到的結果很難令人滿意。另一方面,對於用戶日常從網絡上收集得到的圖像素材,低分辨率的插圖是十分常見的。直接通過上述算法得到的結果,其圖像質量通常難以被用戶所接受,並不能在實際的生產場景中帶來很好的用戶體驗。

微軟亞洲研究院針對這一問題提出了一套全新的圖像超分辨率解決方案,在技術上全面領先的同時,該科研成果還將進一步集成進 Microsoft 365 中 PowerPoint 產品的 Design Ideas 模塊中,該模塊通過人工智能技術,為用戶提供各種在幻燈片制作過程中的建議與幫助,提升用戶幻燈片制作的效率與最終成品的質量。如圖12所示,當用戶插入一張低分辨率的圖像時,會自動觸發 Design Ideas 模塊,一旦用戶確認使用圖像超分辨率技術進行圖像增強,原始的低分辨率圖像將立即被一張高分辨率的圖像所替代,整個過程耗時極低,實際效果卻有着很大的提升。


 

 圖12:通過 PowerPoint 中的 Design Ideas 模塊提升用戶的圖像質量

(上:用戶插入的低分辨率圖像放大結果,下:超分辨率后圖像放大結果)

很快,Microsoft 365 的用戶就可以體驗到這一新功能,背后的相關技術論文已經被 CVPR 2020 收錄,請大家關注我們的后續文章,會為大家一一揭曉。

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM