paper:Quality Assessment of In the Wild Videos
authors:Dingquan Li etc.
date:2019
codes:vsfa
1. Introduction:
1.Human judgments of visual image/video quality depend on content:主觀評價受圖片內容的影響。
2.Human judgments of video quality are affected by their temporal memory.之前質量差的幀,對后續幀的評分有影響。(temporal hysteresis effect)
作者提出的方法,用圖像分類任務中預訓練的 CNN 提取內容信息,然后用 GRU 建模時序信息,再用 temporal pooling 解決 temporal hysteresis effects。如下圖:
2. Proposed Method
2.1 content-aware feature extraction
使用 ImageNet 預訓練的 CNN 有識別圖片內容信息的能力。
假設視頻有 T 幀,將第 t(t=1...T)幀\(I_t\)送入預訓練的 CNN 網絡,輸出\(M_t\)
其中\(M_t\)包含\(C\)個 feature maps。接着是空間池化操作,分別是 spatial global average pooling(\(GP_{mean}\),計算 feature map 的均值)和 global standard deviation pooling(\(GP_{std}\),計算 feature map 的標准差)。
\(f_t^{mean}\)和\(f_t^{std}\)連接,構成 content-aware perceptual feature \(f_t\)
\(\oplus\)是 concatenation operator,\(f_t\)的長度是\(2C\).
2.2 modeling of Temporal-Memory Effects
時序建模分為兩部分,第一部分,使用 GRU 去 integrate features,建模幀間的長時間依賴,第二部分,使用 temporal pooling 對所有幀的評分池化得到視頻評分。
2.2.1 Long-term dependencies modeling
\(f_t\)進入 GRU 層前,先使用 FC 層做 dimension reduction.
\(x_t(t=1,\dots,T)\)被送入 GRU 層
輸出的\(h_t\)是 integrated features,用來預測 t 幀的評分\(q_t\)
2.2.2 Subjectively-inspired temporal pooling
以前的一些算法計算出每一幀評分后通過直接平均池化來得到視頻質量評分。考慮到temporal hysteresis effect,我們使用 temporal pooling.(subjects react sharply to drops in video quality and provide poor quality for such time interval,but react dully to improvements in video quality threon.)
為了模擬主觀評價對差的視頻幀的敏感和hysteresis effect,對第\(t\)幀定義 memory qualit element \(l_t\)
其中\(V_{prev}=\{\max(1,t-\tau),\dots,t-2,t-1\}\)是\(I_t\)前面的一組幀,\(\tau\)是和temporal duration相關的超參數.
為了解釋主觀評價對視頻質量下降的敏感和對視頻質量提升的感覺遲鈍,在第\(t\)幀定義了current quality element \(m_t\),對t幀后的幀序列應用用加權平均,差的幀分配大的權重。
\(V_{next}\)是第\(t\)幀后的一組幀,\(V_{next}=\{t,t+1,\dots,\min(t+\tau,T) \}\).
最后,第t幀的評價分數為\(l_t\)和\(m_t\)的加權平均,總體的視頻質量分數Q是所有幀的評分的全局平均池化(GAP,即平均)
2.3 Implementation Details
使用ImageNet預訓練resnet50提取content-aware特征,\(f_t\)是4096維,接着用一個FC層降維到128,使用GRU層提取幀間long-term dependencies,GRU的hidden state size設為32,然后經temporal pooling得到視頻分數,\(\tau\)和\(\gamma\)兩個超參數設為12和0.5。訓練使用L1 loss和Adam optimizer。
3 Experiments
3.1
datasets:KoNViD-1k/LIVE-Qualcomm/CVD2014
evaluation criteria:SROCC/KROCC/PLCC/RMSE
3.2 對比
與BRISQUE/NIQE/CORNIA/VIIDEO等算法對比分析