Time Lens: Event-based Video Frame Interpolation

本文轉載自查看原文 2021-06-21 19:42 337

Time Lens: Event-based Video Frame Interpolation

2021-06-21 19:40:23

Paper: https://openaccess.thecvf.com/content/CVPR2021/papers/Tulyakov_Time_Lens_Event-Based_Video_Frame_Interpolation_CVPR_2021_paper.pdf

Project: http://rpg.ifi.uzh.ch/TimeLens.html

Code: https://github.com/uzh-rpg/rpg_timelens

1. Background and Motivation:

視頻幀的插值有眾多應用場景，主要是針對一般幀率的視頻（30-50 FPS 左右），將其幀率可以提升到任意的 FPS，比如 500 FPS, 1K FPS 等。作者對基於視頻的插幀方法進行了回顧：

　　1. Warping-based approach 利用光流估計和圖像扭曲來生成兩個關鍵幀之間的視頻幀。並且有一個假設：運動是線性的，連續幀之間亮度保持一致。

　　2. Kernel-based approaches 將視頻插幀看做是一個 local convolution 的過程，其卷積核來源於 key frames。

　　3. Phase-based approaches 將VFI 看做是一個 phase shift estimation problem，其中神經網絡解碼器直接預測中間幀的階段分解。

總體來說，所有基於 video frame 的方法均假設了簡化的運動模型，即，線性運動。因為視頻幀之間的時間，並沒有可用的視覺信息。這就是基於 frame 方法的核心缺陷，此外，這種假設還基於亮度和改變保持一致的前提下，這樣就極大的限制了其他高動態場景下的應用：

　　1. non-linear motions between the input keyframes,

　　2. changes in illuminations or motion blur;

　　3. non-rigid motions and new objects appearing in the scene between keyframes.

　　Multi-Camera Approaches:

　　Event-based Approaches:

2. 本文方法：

如上圖所示，本文所提出的任務設定，嘗試在兩幀之間，使用兩組 event flow，來預測中間的 frame。本文提出一種 warping-based 和 synthesis-based interpolation 相結合的思路，具體的：

　　1. the warping-based interpolation module 預測一個新的視頻幀，通過利用event flow 預測得到的光流，進行 RGB keyframe 的邊界扭曲；

　　2. the warping refinement module 目的是改善該預測；

　　3. 通過仿真模塊得到的插值，預測一組新的視頻幀，直接融合邊界 keyframe 和 event sequences 的輸入信息；

　　4. 基於 attention 的平均化模塊，有好的組合 warping-based 以及 synthesis-based results。

　　這樣的話，經過上述步驟就可以充分挖掘 warping- 和 synthesis-based 插幀方法的優勢。算法的大致流程如下圖所示：

3. 所提的數據集：

上圖是本文數據集所用的攝像頭組合，RGB 相機和 Event 相機，均為高分辨率的相機。

4. Experiments：

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。