視頻增強和超分是計算機視覺領域的核心算法之一,目的是恢復降質視頻本身的內容,提高視頻的清晰度。該技術在工業界有着重要的實用意義,並對於早期膠片視頻的質量和清晰度的提升有着重大的意義。
圖像、視頻超分辨研究現狀
根據數據類型分類,目前的超分辨工作分為圖像超分和視頻超分。
圖像超分
圖像超分領域隨着卷積神經網絡的應用,不斷有新的網絡結構取得更優的性能,以下 6 種結構是目前圖像超分領域所使用的方法:
-
殘差結構 目前超分領域普遍認為更深的網絡能夠帶來更優性能,但更深的網絡也帶來訓練困難的問題,殘差結構能夠緩解該問題,例如:EDSR;
-
多分支結構 從增加網絡的寬度來提升性能,也是一種增強特征表達的方式,例如:REDNet;
(以上兩種結構都會帶來巨大的參數量)
-
循環結構 利用共享網絡參數、循環遞歸的方式,在減少網絡參數的情況下提升性能,例如:DRCN;
-
漸進式結構 把超分辯設計成多個階段的網絡結構,利用逐步增加分辨率的方式,提高超分性能,例如:SCN;
-
注意力機制 提高特征的表達能力,從而提高性能,例如:RCAN、DRLN;
-
對抗模型 利用 GAN 的思想生成更符合人眼視覺評價的高分辨率圖片,例如:SRGAN、EnhanceNet、ESRGAN.
視頻超分
視頻超分與圖像超分的區別主要有兩點,包括:
-
視頻幀對齊 因為視頻中存在各種運動信息,所以存在參考幀和目標幀的偏差,但超分辯一般需要利用鄰幀跟參考幀做對齊;
-
視頻幀融合 視頻中存在運動模糊和場景切換的問題,如何有效融合視頻幀,去除干擾信息,對最終的結果也有影響。
而在這兩方面,視頻超分的主要結構有以下幾個類型:
-
三維卷積 直接利用 3D 卷積捕捉時域特征的功能,直接做幀間融合;
-
循環結構 可用於提取幀間關系,融合目標幀和參考幀的信息,例如: LSTM 的結構來做幀間融合;
-
濾波器預測 利用融合后的幀間信息預測濾波器參數,再通過濾波的方式做超分辯,獲得自適應的濾波效果;
推薦閱讀: