無參考視頻質量評價神經網絡算法:Quality Assessment of In the Wild Videos

本文轉載自查看原文 2020-03-25 11:16 1179 計算機視覺算法

paper:Quality Assessment of In the Wild Videos
authors:Dingquan Li etc.
date:2019
codes:vsfa

1. Introduction:

1.Human judgments of visual image/video quality depend on content：主觀評價受圖片內容的影響。
2.Human judgments of video quality are affected by their temporal memory.之前質量差的幀，對后續幀的評分有影響。(temporal hysteresis effect)
作者提出的方法，用圖像分類任務中預訓練的 CNN 提取內容信息，然后用 GRU 建模時序信息，再用 temporal pooling 解決 temporal hysteresis effects。如下圖:

2. Proposed Method

2.1 content-aware feature extraction

使用 ImageNet 預訓練的 CNN 有識別圖片內容信息的能力。
假設視頻有 T 幀，將第 t(t=1...T)幀\(I_t\)送入預訓練的 CNN 網絡，輸出\(M_t\)

\[M_t=CNN(I_t) \tag{1} \]

其中\(M_t\)包含\(C\)個 feature maps。接着是空間池化操作，分別是 spatial global average pooling(\(GP_{mean}\),計算 feature map 的均值)和 global standard deviation pooling(\(GP_{std}\)，計算 feature map 的標准差)。

\[f_t^{mean} = GP_{mean}(M_t), \\ f_t^{std} = GP_{std}(M_t) \tag{2} \]

\(f_t^{mean}\)和\(f_t^{std}\)連接,構成 content-aware perceptual feature \(f_t\)

\[f_t=f_t^{mean} \oplus f_t^{std} \tag{3} \]

\(\oplus\)是 concatenation operator,\(f_t\)的長度是\(2C\).

2.2 modeling of Temporal-Memory Effects

時序建模分為兩部分，第一部分，使用 GRU 去 integrate features,建模幀間的長時間依賴,第二部分，使用 temporal pooling 對所有幀的評分池化得到視頻評分。

2.2.1 Long-term dependencies modeling

\(f_t\)進入 GRU 層前，先使用 FC 層做 dimension reduction.

\[x_t=W_{f_x}f_t+b_{f_x}\tag{4} \]

\(x_t(t=1,\dots,T)\)被送入 GRU 層

\[h_t=GRU(x_t,h_{t-1}) \tag{5} \]

輸出的\(h_t\)是 integrated features,用來預測 t 幀的評分\(q_t\)

\[q_t=W_{hq}h_t+b_{hq}\tag{6} \]

2.2.2 Subjectively-inspired temporal pooling

以前的一些算法計算出每一幀評分后通過直接平均池化來得到視頻質量評分。考慮到temporal hysteresis effect,我們使用 temporal pooling.(subjects react sharply to drops in video quality and provide poor quality for such time interval,but react dully to improvements in video quality threon.)

為了模擬主觀評價對差的視頻幀的敏感和hysteresis effect，對第\(t\)幀定義 memory qualit element \(l_t\)

\[l_t=q_t , \quad for \quad t=1 \\ l_t=\min_{k \in V_{prev}} q_k , \quad for \quad t>1 \tag{7}\]

其中\(V_{prev}=\{\max(1,t-\tau),\dots,t-2,t-1\}\)是\(I_t\)前面的一組幀，\(\tau\)是和temporal duration相關的超參數.

　　
為了解釋主觀評價對視頻質量下降的敏感和對視頻質量提升的感覺遲鈍，在第\(t\)幀定義了current quality element \(m_t\)，對t幀后的幀序列應用用加權平均，差的幀分配大的權重。

\[ m_t=\sum_{k\in V_{next}}q_kw_t^k \\ w_t^k=\frac{e^{-q_k}}{\sum_{j\in V_{next}e^{-q_j}}},k\in V_{next} \tag{8}\]

\(V_{next}\)是第\(t\)幀后的一組幀，\(V_{next}=\{t,t+1,\dots,\min(t+\tau,T) \}\).
最后，第t幀的評價分數為\(l_t\)和\(m_t\)的加權平均，總體的視頻質量分數Q是所有幀的評分的全局平均池化(GAP,即平均)

\[q_t^,=\gamma l_t+(1-\gamma)m_t \\ Q=\frac{1}{T}\sum_{t=1}^Tq_t^,\tag{9}\]

2.3 Implementation Details

使用ImageNet預訓練resnet50提取content-aware特征，\(f_t\)是4096維，接着用一個FC層降維到128,使用GRU層提取幀間long-term dependencies,GRU的hidden state size設為32,然后經temporal pooling得到視頻分數,\(\tau\)和\(\gamma\)兩個超參數設為12和0.5。訓練使用L1 loss和Adam optimizer。

3 Experiments

3.1

datasets:KoNViD-1k/LIVE-Qualcomm/CVD2014
evaluation criteria:SROCC/KROCC/PLCC/RMSE

3.2 對比

與BRISQUE/NIQE/CORNIA/VIIDEO等算法對比分析

3.3 abalation study

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 神經網絡和無參考圖片質量評價:Deep CNN-Based Blind Image Quality Predictor 無參考圖像質量評價算法(BRISQUE):No-Reference Image Quality Assessment in the Spatial Domain 無參考圖像質量評價算法(NIQE):Making a Completely Blind Image Quality Analyzer 無參考圖像質量評價(PIQE)算法:Blind Image Quality Evaluation Using Perception Based Features 圖像質量評價（Image Quality Assessment,IQA）騰訊多媒體實驗室：基於三維卷積神經網絡的全參考視頻質量評估算法神經網絡算法神經網絡算法神經網絡算法神經網絡算法