Time Lens: Event-based Video Frame Interpolation
2021-06-21 19:40:23
Project: http://rpg.ifi.uzh.ch/TimeLens.html
Code: https://github.com/uzh-rpg/rpg_timelens
1. Background and Motivation:
視頻幀的插值有眾多應用場景,主要是針對一般幀率的視頻(30-50 FPS 左右),將其幀率可以提升到任意的 FPS,比如 500 FPS, 1K FPS 等。作者對基於視頻的插幀方法進行了回顧:
1. Warping-based approach 利用光流估計和圖像扭曲來生成兩個關鍵幀之間的視頻幀。並且有一個假設:運動是線性的,連續幀之間亮度保持一致。
2. Kernel-based approaches 將視頻插幀看做是一個 local convolution 的過程,其卷積核來源於 key frames。
3. Phase-based approaches 將VFI 看做是一個 phase shift estimation problem,其中神經網絡解碼器直接預測中間幀的階段分解。
總體來說,所有基於 video frame 的方法均假設了簡化的運動模型,即,線性運動。因為視頻幀之間的時間,並沒有可用的視覺信息。這就是基於 frame 方法的核心缺陷,此外,這種假設還基於亮度和改變保持一致的前提下,這樣就極大的限制了其他高動態場景下的應用:
1. non-linear motions between the input keyframes,
2. changes in illuminations or motion blur;
3. non-rigid motions and new objects appearing in the scene between keyframes.
Multi-Camera Approaches:
Event-based Approaches:
2. 本文方法:
如上圖所示,本文所提出的任務設定,嘗試在兩幀之間,使用兩組 event flow,來預測中間的 frame。本文提出一種 warping-based 和 synthesis-based interpolation 相結合的思路,具體的:
1. the warping-based interpolation module 預測一個新的視頻幀,通過利用event flow 預測得到的光流,進行 RGB keyframe 的邊界扭曲;
2. the warping refinement module 目的是改善該預測;
3. 通過仿真模塊得到的插值,預測一組新的視頻幀,直接融合邊界 keyframe 和 event sequences 的輸入信息;
4. 基於 attention 的平均化模塊,有好的組合 warping-based 以及 synthesis-based results。
這樣的話,經過上述步驟就可以充分挖掘 warping- 和 synthesis-based 插幀方法的優勢。算法的大致流程如下圖所示:
3. 所提的數據集:
上圖是本文數據集所用的攝像頭組合,RGB 相機和 Event 相機,均為高分辨率的相機。
4. Experiments: