AI驅動的超分辨技術落地實踐


近年來,隨着深度學習技術的快速發展,基於AI的超分辨技術在圖像恢復和圖像增強領域呈現出廣闊的應用前景,受到了學術界和工業界的關注和重視。但是,在RTC視頻領域中,很多AI算法並不能滿足實際場景下的應用需求。本文將着眼於AI技術從研究到部署的落地問題,分享超分辨技術在RTC領域落地應用所面臨的機遇與挑戰。

一、超分辨技術概述

1. 超分辨技術的提出

超分辨技術的提出

超分辨這一概念最早是在20世紀60年代由Harris和Goodman提出的,是指從低分辨率圖像,通過某種算法或模型生成高分辨圖像的技術,並且盡可能地恢復出更多細節信息,也稱為頻譜外推法。但是在研究初期,頻譜外推法只是用於一些假設條件下的仿真,並沒有得到廣泛的認可;直到單張圖像的超分辨方法提出后,超分辨技術才開始得到廣泛的研究和應用。目前,它已經成為圖像增強乃至計算機視覺領域的重要研究方向。

2.超分辨技術的分類

超分辨技術的分類

單張圖像的超分辨方法根據原理不同,可以分為基於插值、基於重構和基於學習的方法。前面兩種方法分別由於算法原理簡單以及應用場景受限,在實際場景中的超分辨效果並不理想;基於學習的方法,是實際效果最好的超分辨方法,其核心包括兩個部分:算法模型的建立,以及訓練集的選取。根據算法模型和訓練集,基於學習的方法又可以分為傳統學習方法和深度學習方法。一般來說,傳統學習方法的算法模型比較簡單,訓練集也比較小。深度學習方法一般是指采用大量數據訓練的卷積神經網絡方法,也是目前學術界研究的熱點。因此接下來我將重點介紹基於深度學習的超分辨方法的發展過程。

3. DL-based SR

DL-based SR

SRCNN是深度學習方法在超分辨問題的首次嘗試,是一個比較簡單的卷積網絡,由3個卷積層構成,每個卷積層負責不同的職能。第一個卷積層的作用主要是負責提取高頻特征,第二個卷積層則負責完成從低清特征到高清特征的非線性映射,最后一個卷積層的作用是重建出高分辨率的圖像。SRCNN的網絡結構比較簡單,超分辨效果也有待改善,不過它確立了深度學習方法在處理超分辨這類問題時的基本思想。后來的深度學習方法,基本都遵循這一思想去進行超分辨的重建。

后來的 ESPCN、FSRCNN等網絡基於SRCNN進行了一些改進,網絡層數仍然比較淺,卷積層數不會超過10,超分辨的效果也不是特別理想。因為在當時,深度卷積網絡的訓練是存在問題的。一般對於卷積神經網絡來說,當網絡層數增加的時候,性能也會增加,但在實際應用中,人們發現當網絡層數增加到了一定程度,由於反向傳播原理,就會出現梯度消失的問題,導致網絡收斂性變差,模型性能降低。這個問題直到ResNet提出殘差網絡結構之后,才得到比較好的解決。

VDSR是殘差網絡以及殘差學習思想在超分辨問題上的首次應用,將超分辨網絡的層數首次增加到了20層,優點是利用殘差學習的方式,直接學習殘差特征,網絡收斂會比較快,超分辨效果也更好。后來一些卷積神經網絡提出了更復雜的結構, 比如SRGAN提出使用生成式對抗網絡來生成高分辨的圖像,SRGAN由2部分組成,一個是生成網絡,另一個是判別網絡。生成網絡的作用是根據一張低分辨率的圖像來生成一張高分辨的圖像,而判別網絡的作用是將生成網絡生成的高分辨圖像判定為假,這樣網絡在訓練的時候,生成網絡和判定網絡兩者之間不斷博弈,最終達到平衡,從而生成細節紋理比較逼真的高分辨圖像,具有更好的主觀視覺效果。其他深度卷積網絡方法比如SRDenseNet、EDSR、RDN,使用了更復雜的網絡結構,網絡的卷積層越來越深,在單張圖像上的超分辨效果也越來越好。

發展整體趨勢

超分辨技術發展的總體趨勢,基本上可以概括為從傳統方法,到深度學習方法,從簡單的卷積網絡方法到深度殘差網絡方法。在這個過程中,超分辨模型結構越來越復雜,網絡層次越來越深,單張圖像的超分辨效果也越來越好,不過這也會有一定的問題。

二、實時視頻任務的需求與SR的挑戰

視頻處理任務的需求

在RTC領域,對於視頻處理任務來說,大多是直播和會議等即時通信場景,對算法的實時性要求比較高,所以視頻處理算法的實時性是優先考慮的。然后是算法的實用性,由於用戶在使用直播或會議時,攝像頭采集到的視頻質量有時比較低下,可能包含很多噪點;另外視頻在編碼傳輸時會先進行壓縮,壓縮的過程也會導致圖像畫質退化,所以RTC實際應用場景比較復雜,而很多視頻處理方法,比如超分辨算法在研究中的是比較理想的場景。最后,如何提升用戶尤其是移動端用戶的體驗,減少算法的計算資源占用,適用更多終端和設備,也是視頻任務所必須考慮的。

對於這些需求,目前的超分辨方法尤其是基於深度學習的超分辨方法是存在很多問題的。目前學術界關於超分辨的研究大多還是局限在理論階段,圖像超分,尤其是視頻超分如果要大規模落地的話,必須要去解決一些實際問題。首先是網絡模型的問題,目前很多深度學習方法為了追求更好的超分辨效果,采用的模型規模比較龐大,參數量越來越多,會耗費大量的計算資源,在很多實際場景無法實時處理。其次是深度學習模型的泛化能力問題,對於各種深度學習模型來說,都會存在訓練集適配的問題,在訓練的時候所使用的訓練集不同,在不同場景上的表現也不同,用公開數據集訓練的模型,在實際應用場景中未必會有同樣良好的表現。最后是真實場景下超分效果的問題,目前學術界的超分方法,大都是關於比較理想的場景,完成從下采樣圖像到高分辨圖像的重建,但在真實場景中,圖像退化不僅包括下采樣因素,還會有很多其他因素,比如圖像壓縮、噪點、模糊等。

綜上而言,目前基於AI的超分辨方法,在RTC視頻任務中,所面臨的主要挑戰可以概括為,如何憑借規模比較小的網絡來實現具有良好真實效果的視頻質量增強,也就是怎么樣“既叫馬兒跑得快,又讓馬兒少吃草”。

三、視頻超分辨技術的發展方向

首先,深度學習方法依然會是超分辨算法的主流。

因為傳統的方法在超分辨任務上的效果不夠理想,細節比較差。深度學習方法為超分辨提供了一條新的思路。近年來基於卷積神經網絡的超分辨方法,逐漸成為主流方法,效果也在不斷改善。

深度學習方法

從上圖可以看到,近幾年來,基於AI的超分辨方法相對於傳統方法的論文數量呈現出一邊倒的局面,並且這種局面在未來幾年還會進一步擴大。因為雖然存在一些問題,但隨着一些輕量級網絡的出現,深度學習方法將來在落地應用方面可能會有更大的突破,這些問題也將會得以解決,深度學習方法依然會是超分辨的主流研究方向。

其次,一些參數較小的輕量級網絡,在推動超分算法落地方面,會發揮更大的作用。

因為目前各種深度卷積網絡方法,比如EDSR、RDN這類深度殘差網絡難以滿足視頻實時傳輸的需要,一些比較小的輕量級網絡對於實時任務會有更好的效果。

第三,將來的超分辨方法會更加聚焦真實場景任務。

學術領域的SR方法多是針對下采樣問題進行超分,在真實場景下的表現並不是很好,在真實場景中,圖像退化因素是各種各樣的,一些比較有針對性的方法,比如包含壓縮損失、編碼損失以及各種噪聲的超分辨任務,可能會更加實用。

學術界鏟糞模型訓練模式

四、網易雲信AI超分算法

網易雲信 AI 超分算法

在RTC領域中,由於視頻文件過於龐大,我們需要對其進行編碼,然后再傳輸到接收端解碼播放。由於編碼的本質是對視頻的壓縮,當網絡比較差時,編碼量化參數會比較大,會造成嚴重的壓縮,導致輸出圖像產生塊效應和其他失真,造成畫質模糊。這種情況下,如果直接將解碼后的視頻進行超分,壓縮損失也會被放大,超分效果往往不夠理想。針對這些問題,網易雲信提出了基於編碼損失復原的視頻超分辨方法,采用數據驅動和網絡設計並重的策略,通過數據處理模擬真實失真場景,並且從模型設計到工程化實現進行層層優化,對於制約AI超分技術的兩大問題有了一定的突破,在模型實時性和真實場景超分效果方面取得了不錯的效果。

算法策略

以上就是網易雲信在推進AI驅動的超分技術落地應用方面的一些實踐經驗,希望對大家有所啟發和參考。

更多技術內容歡迎關注微信公號 【網易智企技術+】


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM