視頻質量評估(VQA)一直是個很活躍的研究領域,原因其一是業內一直缺少一種統一且准確的評估標准,其二是影響視頻質量的因素過多,且包含很多主觀因素,難以客觀、定量地評價。經過這么多年的研究,已經誕生了非常多的視頻質量評估方法,本文將簡單地對它們進行分類及介紹。
相關閱讀推薦
《視頻直播:Windows中各類畫面源的截取和合成方法總結》
客觀質量評估方法分類
首先,視頻質量評估方法可分為主觀測試和客觀測試兩大類。主觀測試即通過人類肉眼觀察的手段來評分,可以說是最能體現觀眾對視頻質量感受的方法,也是其他客觀評價方法的終極目標。但主觀測試極端耗費人力和時間,是無法直接在工業領域應用的。
而客觀評估方法,按照國際電信聯盟(ITU)的建議,可以根據輸入的數據類型被分為5大類:媒體層(Media-layer)模型、參數集層(Parametric packet-layer)模型、參數規划(Parametric planning)模型、碼流層(Bitstream-layer)模型、混合(Hybrid)模型。其中媒體層模型直接使用媒體信息進行運算分析給出評價結果,而其他類型的評估方法則是根據編碼參數或網絡信道狀態等等外部變量來評估質量。
媒體層模型的方法可以依據是否需要輸入編碼前的原始視頻數據進一步划分為全參考(FR,Full-Reference)、部分參考(RR,Reduced-Reference)和無參考(NR,No-Reference)三類。故名思議,全參考使用完整的原始視頻信號作為對比數據,而部分參考則使用經過提取的部分視頻特征作為對比數據,無參考則僅使用用戶得到的實際數據來評價視頻質量。這三類方法的准確度和適用場合均大有不同。
Figure1 FR,RR,NR視頻質量評估的差異
全參考視頻質量評估
顯然的,在這三類方法中,有完整的原始數據作為對比源的全參考質量評估方法結果會更加准確。但是也正因為其需要使用原始數據,實際應用時會存在較大的限制,所以一般僅在非實時的評估系統中會被使用。例如在開發過程中配置編碼參數或比較不同編碼器的性能時,大多會采用這類方法。
早期的全參考評估方法,一般直接使用像素差值作為衡量依據,比如均方差(MSE)、峰值信噪比(PSNR)等。這類方法計算簡單,且能夠一定程度反應圖像的失真程度,所以至今仍然有很多應用在使用它們。
但是畢竟人類主觀上不光只是依靠單個像素的差異來評價視頻質量的。且不說視頻中包含的大量運動信息,即便只考慮靜態圖像,同樣的像素差值以不同的分布規律分布在不同的位置上時,對視頻質量的影響也是不一樣的。為了更好的評價視頻質量,研究人員根據人類自然視覺上的特性,提出了許多新的評價方法。例如基於結構相似度的VSSIM,以及綜合統計了多種影響因子的VQM等。它們的評價結果相對前一類方法都更為接近人眼主觀感受。這里借用一下出自K.Seshadrinathan, A. C. Bovik的文獻“Motion Tuned Spatio-Temporal Quality Assessmentof Natural Videos”里的圖來展示一下PSNR,VSSIM,VQM的區別。下方三張圖橫坐標為客觀測試分數,縱坐標則為主觀測試分數。可以看到PSNR的結果與主觀分數差異較大,VSSIM則存在不同類型的視頻評價准確度不一的問題,VQM相對來說結果最好。
Figure2 PSNR,VSSIM,VQM客觀評測分數
與主觀評測分數對比
后來,研究人員引入了基於人類視覺系統(HVS)的感知模型,進一步提升了視頻質量評估的准確性。這其中比較有代表性的是MOVIE(MOtion-based Video IntegrityEvalution)。這種方法會計算視頻中物體的運動矢量,聯合時域和空域的失真信息,最終得到一個符合主觀感受的失真評價分數。在眾多全參考視頻質量評估方法中,MOVIE屬於結果較為優秀的一種。但是同時,MOVIE的運算復雜度也要遠高於前面提及的幾種算法。下圖橫坐標為MOVIE應用在視頻質量專家組(VQEG)數據庫提供的測試序列上得到的客觀評分,縱坐標為主觀測試得分。
Figure3 MOIVE客觀評分與主觀評分對比
部分參考視頻質量評估
全參考視頻質量評估需要完整的原始視頻信號,也就是未經壓縮的像素數據。這個量級的數據一般是無法實時傳輸的,這也就導致無法在遠程實時監測視頻質量。為了解決這個問題,人們提出了部分參考的評估方法。這類方法會提取原始視頻信號中某些特征值,利用它們來評價視頻質量。常見的特征值有DCT系數、運動矢量等。作為一種介於全參考與無參考之間的折中方案,它夠解決遠程傳輸的問題,而其代價是准確度的降低。現有的部分參考質量評估方法大都僅能達到與PSNR准確度相當的水平。
無參考視頻質量評估
無參考視頻質量評估不再需要失真前的數據,而僅需要和觀眾實際得到的相同的視頻信息,就能得到一個大體的質量評分。這類方法雖然實現起來較為困難,但是一旦實現,即可很靈活地應用在視頻相關的各個領域,是一種比較理想的視頻質量評估手段。但是到目前為止,無參考評估仍然沒有一個較為成熟的方案。一方面其評估結果的准確性與有參考的評估方法相比還有一定差距,另一方面其對視頻內容有比較大的依賴性,普適性仍不能夠得到保證。
不過無參考視頻質量評價目前已是視頻質量相關研究的重點。並且,近些年機器學習技術的進步與普及,也為解決如何在沒有參考對比的前提下評價視頻質量這個問題提供了新的方向。目前業界也已經有了一些借助機器學習手段來進行無參考視頻質量評估的嘗試,其效果如何仍有待驗證。相信隨着研究者們的不斷探索與嘗試,未來我們能夠得到一種成熟的方案。
總結
視頻質量評估的內容非常多,本文僅僅粗略地介紹了客觀視頻質量評價的種類以及它們的適用場景。在實際應用時,仍需要根據實際情況來選擇合適的方法。例如是否需要比較不同幀率或不同分辨率的視頻質量,是否需要考慮網絡抖動的影響等等。最后,用下面的分類圖做一個總結:
Figure4 視頻質量評估方法大致分類
另外,想要了解更多關於即時通訊和音視頻技術的干貨文章,可以移步網易雲信博客。
網易雲信(NeteaseYunXin)是集網易18年IM以及音視頻技術打造的PaaS服務產品,來自網易核心技術架構的通信與視頻雲服務,穩定易用且功能全面,致力於提供全球領先的技術能力和場景化解決方案。開發者通過集成客戶端SDK和雲端OPEN API,即可快速實現包含IM、音視頻通話、直播、點播、互動白板、短信等功能。