會議更流暢,表情更生動!視頻生成編碼 VS 國際最新 VVC 標准


阿里雲視頻雲的標准與實現團隊與香港城市大學聯合開發了基於 AI 生成的人臉視頻壓縮體系,相比於 VVC 標准,兩者質量相當時可以取得 40%-65% 的碼率節省,旨在用最前沿的技術,普惠視頻通話、視頻會議、在線教育等重要應用領域。

作者|王釗 、葉琰、王詩淇

審校| 泰一

https://v.youku.com/v_show/id_XNTE0MTQ1MzgxNg==.html

基於 AI 生成的人臉視頻壓縮

繼線上購物、線上支付后,在線教育、在線辦公、在線互娛也流行起來,豐富着我們的日常工作生活,其中一大功臣 —— 視頻,是主要的推動力。整個社會的大趨勢在走向內容視頻化,交互線上化。視頻雲業務成為雲業務中最炙手可熱的版塊,雲端一體創造了更低成本、更低門檻、更強體驗、全民共享的技術普惠能力。釘釘也成為一種新的工作學習方式,通過視頻會議幫助億萬人解決異地工作的問題,幫助億萬中小學生解決在家上課的問題。

不論是視頻會議還是其它視頻場景,視頻壓縮都是最基本也是最核心的能力。國際 ISO/IEC 與 ITU-T 標准組制定的一代代視頻壓縮標准,如 H.264/AVC (2003),H.265/HEVC (2013) 等,代表了視頻壓縮能力的每一次重大發展。在 2020 年,最新的國際視頻壓縮標准 H.266/VVC 正式完成制定,相比於 H.265/HEVC,可以提高一倍壓縮率,相比於 H.264/AVC,可以提高四倍壓縮率。

AI 技術的興起也在向廣泛的應用領域發起挑戰。其中,號稱 “萬物皆可生成” 的 GAN(對抗生成網絡) 則被一些互聯網科技巨頭公司嘗試用於會議視頻壓縮上。2020 年,Facebook 與 Nvidia 均發布了基於生成的會議視頻壓縮方法,報告顯示可以取得明顯優於 H.264/AVC 的壓縮效率。

今天,阿里雲視頻雲的標准與實現團隊通過和香港城市大學的緊密合作,也推出了基於 AI 生成的會議視頻壓縮系統,相比於最新的 VVC 標准,在實驗室測試場景中,相同的人眼觀看質量下可以節省 40%-65% 的碼率。VVC 已經代表着業界最先進的視頻壓縮能力,而我們系統相比於 VVC 所顯示的技術優勢則意味着我們有望可以在不久的將來大幅度拉開釘釘視頻會議和競品系統之間的技術差距,用一半的帶寬開相同質量的釘釘視頻會議!

傳統客觀質量評價指標如 PSNR、SSIM 等依賴於像素級的失真計算,並不適用於生成任務的失真評價。DISTS 指標( PAMI2020[1] )和 LPISP 指標( CVPR2018[2] ) 是兩個近年來質量評估領域的頂級文章,它們通過深度特征來度量解碼圖像與原始圖像的相似度,可以更好地針對基於 GAN 的視頻壓縮場景進行質量評價,因此它們與人眼主觀質量評測的相關度遠高於 PSNR 和 SSIM 這些傳統指標。

當我們視頻雲的基於 AI 生成的會議視頻壓縮系統與 VVC 參考軟件使用相同的碼率時,視頻雲生成壓縮系統的解碼視頻相比於 VVC 可以獲得 40%-65% 的質量提升。也就是說,在相同的帶寬下,用戶可以享受到更加清晰、生動的畫質。

在 DISTS 客觀指標相當時,視頻雲的生成壓縮系統與 VVC 對比如頂部視頻所示。通過觀察對比視頻效果可以看到,視頻雲的基於 AI 生成的壓縮系統與 VVC 相比有大幅的帶寬成本降低(只用 1/3 左右的帶寬),同時在視頻清晰度和主觀質量上可以取得明顯優勢。

由於 VVC 是基於傳統視頻壓縮框架,因此在低碼率下容易出現視頻模糊不清以及塊效應等主觀質量問題,而視頻雲的生成壓縮系統則可以在更低碼率下依然很好地保持面部細節和五官清晰度。在碼率 / 帶寬相當時,視頻雲的生成壓縮系統與 VVC 編碼對比視頻如下,相比於 VVC 畫面清晰度和主觀質量的優勢更是明顯,面部表情栩栩如生。

https://v.youku.com/v_show/id_XNTE0MTQ1NjIzMg==.html

壓縮系統關鍵技術

我們提出的基於 AI 生成的視頻雲會議視頻壓縮系統的編碼端包含兩部分:壓縮源圖像的 VVC 編碼器和用於提取其他圖像幀的臉部運動信息的臉部探測器。首先,通過對源圖像在 VVC 編碼器中在一定的量化步長下進行壓縮,並傳輸相應的比特流到解碼端。其次,在臉部探測器的幫助下我們可以進一步提取后續其他圖像幀的關鍵點和雅可比矩陣,用於表示這些圖像幀的臉部運動信息。這些臉部關鍵點和雅可比矩陣進行幀間殘差預測和算術編碼,實現壓縮並傳輸到解碼端。

解碼端首先解碼出源圖像,然后解碼出待生成幀對應的關鍵點與雅可比矩陣。解碼端的生成模型會以源圖像、關鍵點和雅可比矩陣作為輸入,對關鍵點對應的高維空間進行矩陣變換,並作用於源圖像提出的高維特征圖上,從而輸出最終的生成圖像。下圖給出了一個可視化示例。

與 VVC 編碼實驗對比

我們對 30 個人臉視頻 (上圖) 進行了 VVC 編碼與基於 AI 生成的視頻壓縮對比。VVC 編碼器在低延遲模式 (Low-delay B) 下使用量化參數 (QP) 32, 37, 42, 47。視頻雲的基於 AI 的生成壓縮方法同樣測試了 4 個不同的碼率點。測試集上的平均編碼質量與碼率如下表所示。

表 1 視頻雲的生成壓縮系統與 VVC 的壓縮性能對比,DISTS 與 LPIPS 數值越低表示質量越高

根據實驗結果,可以看到在相當的解碼視頻質量下,視頻雲的生成壓縮方法相比於 VVC 可以帶來 40%-65% 的平均碼率節省,同時這個壓縮性能的優勢在低碼率場景下更加明顯。把質量評分與碼率做成相應的失真 - 碼率曲線,對比如下:


圖 4 視頻雲的生成壓縮方案與 VVC 的壓縮效率對比圖

在碼率相當時,視頻雲的生成壓縮系統與 VVC 解碼視頻的主觀對比圖示例如下:

可見在低碼率下 VVC 容易出現畫面模糊的情況,而視頻雲的生成壓縮系統的清晰度更高。

在解碼質量相當時,視頻雲的生成壓縮系統與 VVC 解碼視頻的碼率對比如下:

可以看到,在壓縮質量相當時,視頻雲的生成壓縮系統相比於國際最新 VVC 標准可將壓縮率提高 40%-65%。這不僅極大降低了相關視頻應用的帶寬成本,還可以讓用戶享受到更生動、更流暢的視頻體驗!

參考文獻:

[1] Ding, Keyan, et al. "Image Quality Assessment: Unifying Structure and Texture Similarity." IEEE transactions on pattern analysis and machine intelligence.

[2] Zhang, Richard, et al. "The unreasonable effectiveness of deep features as a perceptual metric." Proceedings of the IEEE conference on computer vision and pattern recognition. 2018.


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM