Video Super Resolution Based on Deep Learning A Comprehensive Survey 翻譯



【摘要】近年來,深度學習在 圖像識別自然語言處理語音識別視頻超分辨率等領域取得了很大的進展。在這項調查中,我們全面調查了33個基於深度學習的最先進的視頻超分辨率(VSR)方法。眾所周知,利用視頻幀中的信息對視頻的超分辨率是非常重要的。因此,我們提出了一種分類法,並根據幀間信息的利用方式將這些方法分為六個子類。詳細描述了各種方法的體系結構和實現細節。最后,我們總結並比較了有代表性的VSR方法在一些基准數據集上的性能。我們還討論了一些需要VSR研究者進一步解決的挑戰。據我們所知,這項工作是對VSR任務的首次系統回顧,有望為該領域的最新研究做出貢獻,並有可能加深我們對基於深度學習的VSR技術的理解。

【關鍵字】視頻超分辨,深度學習,卷積神經網絡,幀間信息

INTRODUCTION

超分辨率(SR)的目的是從相應的低分辨率(LR)圖像中恢復一幅或多幅高分辨率圖像。它是計算機視覺和圖像處理中一個經典而又富有挑戰性的問題,在現實世界中有着廣泛的應用,如醫學圖像重建[1]、人臉重建[2]、遙感[3]和全景視頻超分辨率重建[4,5]、無人機監控[6]和高清電視[7]。
隨着第五代移動通信技術的出現,較大尺寸的圖像或視頻可以在較短的時間內轉換。同時,隨着高清(HD)和超高清(UHD)顯示設備的普及,超分辨率顯示越來越受到人們的關注。

​ 視頻是人們日常生活中最常見的多媒體之一,因此對低分辨率視頻的超分辨率處理顯得尤為重要。一般來說,圖像超分辨率方法一次處理一幅圖像,而視頻超分辨率算法一次處理多幅連續圖像/幀,利用幀內關系對目標幀進行超分辨率處理。從廣義上講,視頻超分辨率(VSR)可以看作是一類圖像超分辨率,可以通過圖像超分辨率算法逐幀進行處理。然而,SR的性能往往不盡如人意,因為可能會引入偽影阻塞,從而導致幀內的時間一致性得不到保證。

​ 近年來,許多視頻超分辨率算法被提出。它們主要分為兩類:傳統方法和基於深度學習的方法。對於一些傳統的方法,運動是簡單地估計仿射模型如[8]。在文獻[9,10]中,他們分別采用非局部均值和三維指導核回歸進行視頻超分辨率處理。Liu和Sun[11]提出了一種貝葉斯方法來同時估計基本運動、模糊核和噪聲水平,並重建高分辨率幀。在[12]中,采用期望最大化(EM)方法估計模糊核,指導高分辨率幀的重建。然而,這些高分辨率視頻的顯式模型仍然不足以適應視頻中的各種場景。

​ 隨着深度學習在各個領域的成功應用,基於深度學習的超分辨率算法得到了廣泛的研究。基於深度神經網絡的視頻超分辨率方法有卷積 神經網絡(CNN)、生成對抗網絡(GAN)和遞歸神經網絡(RNN)。通常采用大量的低分辨率和高分辨率視頻序列輸入神經網絡進行幀間對齊特征提取/融合,然后產生低分辨率視頻序列相對應的的高分辨率視頻序列。大多數視頻超分辨率方法的流水線主要包括一個對齊模塊、一個特征提取與融合模塊和一個重建模塊,如[圖1](#圖1 基於深度學習的VSR任務的通用流程。需要注意的是,幀間對齊模塊可以是傳統方法,也可以是深度CNNs,而特征提取融合模塊和上采樣模塊通常都使用深度CNNs。虛線框表示模塊是可選的。)所示。由於深度神經網絡的非線性學習能力,基於深度學習的方法通常能在許多公共基准數據集上獲得良好的性能。

​ 到目前為止,很少有關於視頻超分辨任務的回顧,盡管有很多工作[13,14,15]關於單幅圖像超分辨率的研究已經出版。 DaithankarRuikar [16]在基於頻率空間域方法的視頻超分辨上發表了簡短的回顧文章,然而基於深度學習方法卻很少提及。 與以前的工作不同,我們提供了全面的深度學習技術研究近年來的視頻超分辨率。視頻超分辨率與圖像超分辨率的主要差距在於處理幀間信息。 如何有效利用相鄰幀的信息對於VSR至關重要任務。 我們專注於利用幀間的方式各種基於深度學習的方法的信息。

本文貢獻主要總結如下:

  • 我們回顧了基於深度學習的視頻超分辨率技術的研究進展。據我們所知,這是第一次對基於深度學習的VSR方法進行全面的調查。

  • 我們提出了一種基於深度學習的視頻超分辨率方法的分類方法,對其幀間信息的利用方式進行了分類,並舉例說明了如何利用該分類方法對現有方法進行分類。

  • 我們總結了最新的方法在一些公共基准數據集上的性能。

  • 我們進一步討論了視頻超分辨率任務的一些挑戰和前景。

​ 論文的其余部分組織如下。第二節簡要介紹了視頻超分辨率的背景。第三節展示了我們最近作品的分類法。在第四節和第五節中,我們根據分類法分別描述了有對齊和無對齊的視頻超分辨率方法。在第六節中,對現有方法的性能進行了定量分析。第七節討論了視頻超分辨率技術面臨的挑戰和發展趨勢。最后,我們在第八節結束這項工作。

Snipaste_2021-03-30_20-41-40

圖1 基於深度學習的VSR任務的通用流程。需要注意的是,幀間對齊模塊可以是傳統方法,也可以是深度CNNs,而特征提取融合模塊和上采樣模塊通常都使用深度CNNs。虛線框表示模塊是可選的。

BACKGROUND

​ 視頻超分辨率源於圖像超分辨率,它旨在從多個低分辨率幀中恢復高分辨率視頻。 然而,
視頻和圖像超分辨率之間的區別技術也很明顯,即前者通常利用幀間信息。 除了RGB顏色空間外,YUV還包括YCbCr顏色空間也廣泛用於VSR。 \(I_i\in \mathbb{R}^{H\times W\times 3}\)表示LR視頻序列I中的第i幀,\(\widehat{I}_i\in \mathbb{R}^{sH\times sW\times 3}\)是相應的HR視頻序列的第i幀,其中s是縮放因子,例如s = 2、4或8。並且\(\{\widehat{I}_{j}\}_{j=i-N}^{i+N}\)是一組相對於中心幀\(\widehat{I}_{i}\)有2N +1幀的HR幀,其中N是時間半徑。 然后HR視頻序列的退化模型可以表示為:

\[I_i=o (\widehat{I}_i, \{\widehat{I}_j\}_{i+N}^{j=i-N};\theta_ \alpha ) \qquad (1) \]

其中,\(o (.;.)\)是退化模型函數,\(\theta_\alpha\)是如加噪、運動模糊、下采樣的退化因子。多數現有工作中,例如[11、12、17、18],常用的退化過程可表示為:

\[I_j=DBE_{i\rightarrow j}\widehat{I}_i+n_j \qquad (2) \]

其中,D和B分別對應下采樣和模糊操作,\(n_j\)表示圖像噪聲,\(E_{i\rightarrow j}\)是基於從\(\widehat{I}_i\)\(\widehat{I}_j\)運動的變形操作(warping operation)。

​ 實際上,很容易獲得LR圖像序列I的第j幀,但是退化因素,可能非常復雜,或者可能是多種因素的結合,尚不得而知。與單圖像超分辨率(SISR)不同在於,SISR解決單個降級圖像,而VSR需要處理降級的視頻序列,並恢復相應的HR視頻序列,應為與參考視頻(GT)非常接近。 具體來說,VSR算法可以使用與SISR類似的技術來實現在處理單個幀(空間信息)的同時必須考慮幀之間的關系(時間信息)\(s = i_i\)來確保視頻中的運動一致性。 超分辨率過程,即等式(1)的逆過程,可以表述為:

\[\widetilde{I}_i=o^{-1}(I_i,\{I_j\}_{j=i-N}^{i+N};\theta_\beta) \qquad (3) \]

​ 其中,\(\widetilde{I}_i\)表示相對於GT的模型預測,\(\theta_\beta\)是模型參數。

​ 與SISR一樣,視頻質量主要通過以下方式進行評估:峰值信噪比(PSNR)和結構相似性指數(SSIM)。 它們分別衡量像素差異和兩個之間的結構相似性。

VIDEO SUPER-RESOLUTION METHODS

​ 由於視頻是動態圖像和聲音的錄制,用於視頻超分辨率的方法從現有的單幅圖像超分辨率方法中學習。有很多基於深度學習的圖像超分辨率方法,例如SRCNN [53],FSRCNN [54],VDSR [55],ESPCN [56],RDN [57],RCAN [58],ZSSR [59]和SRGAN [60]。 2016年,基於SRCNN,Kappeler[20]提出了一種基於卷積神經網絡的視頻超分辨率方法VSRnet。 到目前為止,很多
視頻超分辨率算法已經提出。在下文中,我們總結了基於深度學習的視頻超分辨率方法如表I所示。

表I 基於深度學習的現有視頻超分辨率方法及其關鍵策略。 在這里,MEMC是運動估計和運動補償,DC是可變形卷積,3D Conv是3D卷積,並且RCNN表示遞歸卷積神經網絡。

Snipaste_2021-03-31_10-55-08

​ 關於視頻超分辨率的幾項研究,例如[37,44,39]已經表明信息的利用幀之間的差異極大地影響了性能。正確和適當地使用此類信息可以增強超分辨率的效果。 因此,我們建立現有視頻超分辨率的分類法方法根據自己的利用方式幀間信息,如圖2所示。

Snipaste_2021-03-31_10-59-19

圖2 關於現有SOTA視頻超分辨率算法的分類法。 在這里,MEMC代表運動估計和補償方法,DC是可變形卷積方法,3D Conv是3D卷積RCNN表示基於遞歸卷積神經網絡的方法。

​ 如圖2表I所示,我們將現有的方法分為兩個主要類別:對齊不對齊的方法,根據視頻幀是否明確對齊。 我們將以下各節將詳細介紹這些方法。

METHODS WITH ALIGNMENT

​ 對齊方法通過在子序列重建之前,利用提取運動信息來使相鄰幀與目標幀進行明確的對齊。並且這些方法主要使用運動估計和運動補償(MEMC)或可變形卷積,這是兩種常見的技術對齊框架。 接下來,我們將介紹最新技術基於每種技術的詳細方法。

運動估計和補償方法

​ 在用於視頻超分辨率的對齊方法中,他們大多數都采用運動估計和運動補償技術。 具體來說,
運動估計的目的是提取幀間運動信息,運動補償是根據幀間運動信息來實施幀間的變形在操作,使得一幀對齊另一幀。 大多數運動估計技術由光流法[61]。 此方法嘗試計算通過兩個相鄰幀之間的運動時域中的相關性和變化。 運動補償方法可以分為兩種類別:傳統方法(例如LucasKanade [62]和Druleas [63])和深度學習方法,例如FlowNet [61],FlowNet 2.0 [64]和SpyNet [65]。

​ 通常,光流法需要兩幀(例如\(I_i\)\(I_j\))作為輸入。 一個是目標幀,另一個是相鄰幀。 然后光流法計算從\(I_i\)\(I_j\)的光流\(F_{i \rightarrow j}\)的向量場,公式如下:

\[F_{i \rightarrow j}(h_{i \rightarrow j}, v_{i \rightarrow j})=ME(I_i,I_j;\theta_{ME}) \]

其中,\(h_{i \rightarrow j}\)\(v_{i \rightarrow j}\)\(F_{i \rightarrow j}\)的水平和垂直分量,\(ME(.)\)是計算光流的函數,\(\theta_{ME}\)是函數參數

運動補償用於根據圖像之間運動信息來執行圖像變換,以使相鄰幀與目標幀對齊。 它可以通過一些方法來實現,例如雙線性插值和空間變壓器網絡(STN)[66]。 通常,補償幀\(I_j^{'}\)表示為:

\[I_j^{'}=MC(I_i,F_{i \rightarrow j};\theta_{MC}) \]

其中,\(MC(.)\)是運動補償函數,\(I_i\)是相鄰幀,\(F_{i \rightarrow j}\)是光流法,\(\theta_{MC}\)是補償函數參數。運動估計和運動補償的示例如圖3所示。下面,我們描述此類中的一些代表性方法。

  1. Deep-DE:該模型有兩個階段,如圖4所示。它首先通過調整TV-l1[67,68]和運動細節保留(MDP)來生成一系列SR草圖[69]。 然后,SR草圖和經過雙三次插值的LR目標幀被引入CNN用於特征提取,融合和超分辨率。Deep-DE中的CNN由四個卷積層組成:前三層是常規卷積層,最后一層是反卷積層。 它們的內核大小分別為11×11,1×1,3×3,25×25,通道數對應為256、512、1和1。
  2. VSRnet:$VSRnet^2 $[20]是基於圖像超分辨率算法SRCNN [53],其網絡架構如圖5所示。VSRnet主要由運動估計和補償模塊組成,以及三個卷積層,除最后一個以外的其他每個卷積層后面是一個修正線性單元(ReLU)。 VSRnet和SRCNN之間的主要區別在於輸入幀的數量。 也就是說,SRCNN將單個幀作為輸入,而VSRnet使用多個連續幀,這些幀是補償幀。 幀之間的運動信息由Druleas算法計算得出[63]。 此外,VSRnet提出了一種濾波器對稱實施(FSE)機制和自適應運動補償機制,它們分別用於加速訓練並減少不可靠的補償幀的影響,從而可以提高視頻超分辨率性能。
  3. VESPCN:[21]提出了一種用於運動估計和補償的空間運動補償變換(MCT)模塊。然后,將補償后的幀放到一系列卷積層中,以進行特征提取和融合,如圖6所示。最后,通過子像素卷積層獲得超分辨率結果以進行上采樣。 MCT模塊采用CNN提取運動信息並執行運動補償。 MCT使用從粗到精的方法來計算圖像序列的光流。首先,在粗略估計階段,網絡將兩個連續的幀(即,目標幀和相鄰幀)作為輸入。粗糙網絡由5個卷積層和一個子像素卷積層組成。然后,它首先執行兩次下采樣操作兩次,然后通過子像素卷積層執行第四次上采樣操作,以獲得粗略的光流估計結果。其次,根據光流使相鄰的框架彎曲。在精細估計階段,目標幀,鄰近幀,在粗糙階段計算出的光流和彎曲的鄰近幀是精細網絡的輸入,精細網絡的結構類似於粗糙網絡。它首先進行2次下采樣,然后在網絡末端進行2次上采樣以獲得精細的光流。與粗糙的光流一起,將精細的光流用於獲得最終的估計結果。最終,相鄰的框架通過最終的光流再次彎曲,以使彎曲的框架與目標框架對齊。

Snipaste_2021-03-31_15-47-26

圖3 運動估計和補償的示例。 請注意,最右邊的小圖像是(d)的圖例。 不同的顏色代表不同的運動方向,顏色的強度就是運動的范圍。

Snipaste_2021-03-31_16-09-58

圖4 Deep-DE的體系結構[19]。 在這里,Motion Estim.是運動估計模塊,Motion Comp.是一個運動補償塊,Conv是卷積層,而Deconv是卷積層。

Snipaste_2021-03-31_16-13-55

圖5 VSRnet網絡結構

Snipaste_2021-03-31_16-14-36

圖6 VESPCN網絡結構
  1. DRVSR
  2. RVSR
  3. FRVSR
  4. STTN
  5. SOFVSR
  6. TecoGAN
  7. TOFlow
  8. MMCNN
  9. RBPN
  10. MEMC-Net
  11. RRCN
  12. RTVSR
  13. MultiBoot
  14. MAFN
  15. STARnet

可變性卷積方法

​ Dai等人在2017年首先提出了可變形卷積網絡[79],而改良版[80]在2019年提出。在普通的CNN中,框架通常是在每層中使用固定的幾何結構,這限制了網絡對幾何變換進行建模的能力。相反,可變形卷積能夠克服該限制。圖22中顯示了用於特征對齊的可變形卷積的圖示。目標特征圖與相鄰特征圖拼接,通過額外的卷積層獲取偏移量。將偏移量應用於常規卷積核以生成可變形的卷積核,然后將其與輸入特征圖進行卷積以生成輸出特征圖。采用可變形卷積的方法主要包括增強型可變形視頻恢復(EDVR)[37],可變形非局部網絡(DNLN)[38]和時間可變形對准網絡(TDAN)[39],它們詳細描述如下。

Snipaste_2021-03-31_17-09-09

圖22 可變性卷積用於幀對齊
  1. EDVR
  2. DNLN
  3. TDAN
  4. D3Dnet
  5. VESR-Net

對齊方法的發展。 在具有對准的方法中,運動估計和運動補償技術MEMC作為計算機視覺中的經典研究主題,已在早期被應用於視頻超分辨率。 MEMC具有廣泛的應用,例如視頻編碼和增強隔行掃描。 隨着基於深度學習的VSR的到來,許多作品都采用MEMC來捕獲幀之間的運動信息。 MEMC的早期工作是Deep-DE [19],最近提出的一些方法,例如VESPCN [21],SOFVSR [26],TOFlow [28]和FRVSR [24]也采用了MEMC技術。 具體來說,早期的視頻超分辨率算法在VSRnet中采用傳統的MEMC方法,例如Druleas [20],而隨后的算法(例如VESPCN [21],TOFlow [28]和FRVSR [24])則主要為MEMC設計子模塊或子網。

​ 但是,通常無法保證大多數MEMC方法的准確性。 當亮度變化或視頻在幀之間包含較大的運動時,VSR性能會急劇下降。 因此,對變化的光照和運動條件不敏感可變形卷積引起了研究人員的更多關注。 Dai等人提出了可變形卷積。 [79]增強了CNN對對象幾何變化的轉換建模能力。 在VSR方法中,TDAN [39]首先利用它來執行幀間對齊。 之后,DNLN [38],EDVR [37],STVSR [88]和D3Dnet [40]進一步將其用於幀對齊。 然而,可變形卷積仍然具有一些缺點,包括高計算復雜度和苛刻的收斂條件。 因此,該技術在未來的研究工作中有進一步改進的空間。

METHODS WITHOUT ALIGNMENT

待翻譯...


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM