慢鏡頭變焦:視頻超分辨率:CVPR2020論文解析


慢鏡頭變焦:視頻超分辨率:CVPR2020論文解析

Zooming Slow-Mo:  Fast and Accurate One-Stage Space-Time Video Super-Resolution

 

 

論文鏈接:https://arxiv.org/pdf/2002.11616.pdf

The source code is released in:https://github.com/Mukosame/ZoomingSlowMo-CVPR-2020

摘要

本文探討了一種時空視頻超分辨率解決方案,該方案旨在從低幀速率(LFR)、低分辨率(LR)視頻中生成高分辨率(HR)慢動作視頻。一個簡單的解決方案是將其分為兩個子任務:視頻幀插值(VFI)和視頻超分辨率(VSR)。然而,在這項任務中,時間插值和空間超分辨率是相互關聯的。兩階段法不能充分利用自然屬性。此外,目前最先進的VFI或VSR網絡需要一個大的幀合成或重建模塊來預測高質量的視頻幀,這使得兩階段的方法具有較大的模型尺寸,因而非常耗時。為了克服這些問題,我們提出了一種單級時空視頻超分辨率框架,它直接從LFR、LRvideo合成HR慢動作視頻。而不是合成丟失的LR視頻幀VFI網絡一樣,我們利用所提出的特征時態插值網絡,在捕獲本地時態上下文的丟失LR視頻幀中,對LR幀特征進行時態插值。然后,我們提出了一個可變形的convlst模型來同時對齊和聚合時間信息,以更好地利用全局時間上下文。最后,采用深度重建網絡對HR慢動作視頻幀進行預測。在基准數據集上的大量實驗表明,該方法不僅能獲得更好的定量和定性性能,而且比最近的兩階段最新方法(如DAIN+EDVR和DAIN+RBPN)快3倍以上。

1.       Introduction

近年來,深卷積神經網絡在視頻幀內插(VFI)[24]、視頻超分辨率(VSR)[4]和視頻去模糊(video deblurring)[32]等各種視頻恢復任務中顯示出良好的效率和效果。要設計STVSR網絡,一種直接的方法是以兩階段的方式直接組合視頻幀插值方法(例如SepConv[25]、ToFlow[40]、DAIN[1]等)和視頻超分辨率方法(例如DUF[11]、RBPN[8]、EDVR[37]等)。它用VFI准確地插入丟失的中間LR視頻幀,然后用VSR重建所有HR幀。然而,STVSR中的時間插值和空間超分辨率是相互關聯的。把它們分成兩個獨立過程的兩階段方法不能充分利用這一自然屬性。此外,為了預測高質量的視頻幀,最先進的VFI和VSR網絡都需要一個大的幀重建網絡。因此,組合的兩級STVSR模型包含大量的參數,計算量大。為了解決上述問題,我們提出了一個單一的單階段STVSR框架來同時學習時間插值和空間超分辨率。我們建議自適應地學習可變形特征插值函數來對中間LR幀特征進行時間插值,而不是像兩階段方法那樣合成像素級LR幀。插值函數中的可學習偏移可以聚集有用的局部時間上下文,幫助時間插值處理復雜的視覺運動。此外,我們還引入了一個新的可變形convlsm模型來有效地利用同時具有時間對齊和聚合的全局上下文。利用一個深度SR重建網絡,可以從聚集的LR特征中重建HR視頻幀。為此,一級網絡可以學習端到端以順序到順序的方式將LR、LFR視頻序列映射到其HR、HFR空間。實驗結果表明,所提出的一級STVSR框架在參數較少的情況下,仍優於現有的兩級STVSR方法。一個例子如圖1所示。

 

 

本文的貢獻有三個方面:             

1) 我們提出了一種單級時空超分辨率網絡,它可以在一個統一的框架下同時處理時間插值和空間隨機共振。利用兩個子問題之間的內在聯系,我們的一階段方法比兩階段方法更有效。它的計算效率也更高,因為只需要一個幀重建網絡,而不是兩個大型網絡,如最新的兩階段方法。             

2) 針對中間LR幀,提出了一種基於可變形采樣的幀特征時態插值網絡。我們設計了一種新的可變形convlst模型來顯式地增強時間對齊能力,並利用全局時間上下文來處理視頻中的大運動。             

3) 我們的單階段方法在Vid4[17]和Vimeo[40]上都實現了最先進的STVSR性能。它的速度是兩級網絡DAIN[1]+EDVR[37]的3倍,同時模型尺寸減少了近4倍。

2.       Related Work

Video Frame Interpolation

在我們的一級STVSR框架中,我們沒有像當前的VFI方法那樣合成中間LR幀,而是從兩個相鄰LR幀插入特征,直接合成丟失幀的LR特征映射,而不需要顯式的監控。

Video Super-Resolution

我們提出了一個更為有效的一級框架,該框架不需要簡單地將VFI網絡和VSR網絡相結合來解決STVSR問題,同時學習時間特征插值和空間SR,而無需訪問LR中間幀作為監控。

Space-Time Video Super-Resolution

我們提出了一個一級網絡來直接學習局部LR觀測與HR視頻幀之間的映射,從而實現快速、准確的STVSR。

 

 

3.       Space-TimeVideoSuper-Resolution

為了快速准確地提高空間和時間域的分辨率,我們提出了一個單階段的時空超分辨率框架:如圖2所示縮放慢速Mo。該框架主要由四部分組成:特征提取模塊、幀特征時間插值模塊、可變形convlsm和HR幀重建模塊。

 

 

為了解決大運動問題並有效地利用全局時間上下文,我們在convlsm中顯式地嵌入了一個具有可變形對齊的狀態更新單元(見圖4):

 

 

4.        Experiments and Analysis

4.1.   Experimental Setup

我們使用Vimeo-90K作為訓練集[40],包括超過600007幀的訓練視頻序列。數據集在以前的VFI和VSR工作中被廣泛使用[2,1,35,8,37]。Vid4[17]和Vimeo測試集[40]用作評估數據集。為了測量不同運動條件下不同方法的性能,我們將Vimeo測試集分為快速運動集、中等運動集和慢速運動集,分別包括1225、4977和1613個視頻片段。我們從原始的中等運動集中刪除了5個視頻剪輯,從慢運動集中刪除了3個剪輯,這些剪輯具有連續的所有黑色背景幀,這將導致PSNR上的有限值。利用雙三次采樣因子4生成LR幀,並以奇數索引LR幀作為輸入預測相應的連續HR幀和HFR幀。

采用峰值信噪比(PSNR)和結構相似性指數(SSIM)[38]評價不同方法的STVSR性能。為了測量不同網絡的效率,我們還比較了在Nvidia Titan XP GPU上測量的整個Vid4[17]數據集的模型大小和推斷時間。

4.2.   Comparison to State-of-the-art Methods

我們比較了我們的一級縮放SlowMo網絡和由最先進的(SOTA)VFI和VSR網絡組成的兩級縮放SlowMo網絡的性能。比較了三種最新的SOTA-VFI方法SepConv[25]、Super-SloMo4[10]和DAIN[1]。為了實現STVSR,使用了三個SOTA-SR模型(包括單圖像SR模型、RCAN[41]和兩個最新的VSR模型RBPN[8]和EDVR[37])從原始LR幀和插值LR幀生成HR幀。

定量結果見表1。從表中我們可以了解到以下事實:             

 (1) DAIN+EDVR是12種方法中表現最好的兩階段方法;             

2) VFI很重要,特別是對於快速視頻。盡管RBPN和EDVR在VSR上的性能遠優於RCAN,但是,當配備更先進的VFI網絡DAIN時,DAIN+RCAN在Vimeo-Fast上可以達到與SepConv+RBPN和SepConv+EDVR相當甚至更好的性能;             

3) VSR也很重要。             

例如,使用相同的VFI網絡DAIN,EDVR始終比其他VSR方法獲得更好的STVSR性能。此外,我們還可以看到,我們的網絡在Vid4上的性能比DAN+EDVR高0.19dB,在Vimeo Slow上的性能比DAN高0.25dB,在Vimeo Medium上的性能比DAN+EDVR高0.75dB,在PSNR的Vimeo Fast interms上的性能比DAN+EDVR高1dB。快速運動視頻的顯著改進表明,我們同時利用本地和全局時間上下文的一級網絡比兩級方法更能處理不同的時空模式,包括挑戰視頻中的大運動。此外,我們還研究了表1中不同網絡的模型大小和運行時。為了合成高質量的幀,SOTA-VFI和VSR網絡通常具有非常大的幀重建模塊。因此,組成的兩級SOTA-STVSR網絡將包含大量的參數。由於只有一個幀重建模塊,我們的一級模型比SOTA兩級網絡具有更少的參數。

從表1可以看出,它分別比DAIN+EDVR和DAIN+RBPN小4×和3×以上。小型號的網絡比DAIN+EDVR快3倍以上,比DAIN+RBPN快8倍以上。與具有快速VFI網絡的超低模兩級方法相比,我們的方法仍然快2倍以上。

不同方法的可視化結果如圖5所示。我們發現我們的方法比其他兩個階段的方法獲得了顯著的視覺改進。顯然,所提出的網絡可以合成具有視覺吸引力的HR視頻幀,具有更精細的細節、更精確的結構和更少的模糊偽影,即使對於具有挑戰性的快速運動視頻序列也是如此。我們還觀察到目前的SOTA-VFI方法:SepConv和DAIN不能處理大的運動。因此,兩級網絡容易產生具有嚴重運動模糊的HR幀。在我們的單階段框架中,我們在探索自然內在聯系的同時學習時間和空間SR。即使使用更小的模型,我們的網絡也能很好地解決時間序列中的大運動問題。

 

 

 

 

 

4.3.   Ablation Study

我們已經展示了我們的一級框架相對於兩級網絡的優越性。為了進一步證明我們網絡中不同模塊的有效性,我們進行了全面的融合研究。

變形特征插值的有效性為了研究提出的變形特征插值(DFI)模塊,我們引入了兩個基線:             

a) 以及(b) ,其中模型(a)僅使用卷積來混合LR特征,而不使用模型(b)中的可變形采樣函數。此外,(a)或(b)都沒有convlsm或dconvlsm。從表2中,我們發現(b)在慢動作的Vid4上優於(a)0.16dB,在快動作的VimeoFast上優於(a)0.73dB。圖6顯示了一個可視化比較。我們可以看到t(a)生成的人臉具有嚴重的運動模糊,而提出的利用局部時間上下文的變形特征插值可以有效地解決大運動問題,並幫助模型(b)生成具有更清晰的人臉結構和細節的幀。所提出的DFI模塊的優越性表明,即使沒有任何明確的監控,可變形采樣函數中的學習偏移量也能有效地利用局部時間上下文,成功地捕獲前向和后向運動。              

為了驗證所提出的可變形convlsm(dconvlsm)的有效性,我們比較了四種不同的模型:(b),(c),(d)和(e),其中(c)在(b),(d)使用所提出的dconvlsm,和(e)采用雙向dconvlsm。從表2可以看出(c)在慢動作視頻的Vid4上優於(b),而在快動作序列的Vimeo上則不如(b)。實驗結果驗證了vanilla-convlsm能夠利用有用的全局時間上下文處理慢動作視頻,但不能處理視頻中的大動作。此外,我們觀察到(d)明顯優於(b)和(c),這表明我們的dconvlsm能夠成功地學習先前狀態和當前特征映射之間的時間對齊。

因此,它可以更好地利用全局上下文來重建具有更多細節的視覺愉閾幀。圖7中的視覺結果進一步支持我們的發現。此外,我們比較了表2和圖8中的(e)和(d)來驗證dconvlsm中的雙向機制。從表2中,我們可以看出(e)在慢動作和快動作測試集上可以進一步提高STVSR的性能。圖8中的可視化結果進一步表明,我們的具有雙向機制的完整模型可以通過充分利用所有輸入視頻幀的全局時間信息來恢復更多的可視化細節。

 

 

 

 

 

 

5.       Conclusions

本文提出了一種空時視頻超分辨率的一級重建框架,在不合成中低分辨率幀的情況下直接重建高分辨率、高幀率的視頻。為了實現這一點,我們引入了一種用於特征級時間插值的可變形特征插值網絡。此外,我們還提出了一個可變形的convlsm來聚集時間信息和處理動議。通過這種單階段的設計,我們的網絡可以很好地探索任務中時間插值和空間超分辨率之間的內在聯系。它使我們的模型能夠自適應地學習利用有用的局部和全局時間上下文來緩解大型運動問題。大量實驗表明,與現有的兩級網絡相比,我們提出的一級框架更有效、更高效,而且所提出的特征時間插值網絡和變形變換器能夠處理非常具有挑戰性的快速運動視頻。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM