邁入 8K 時代,AI 驅動超高清 “視” 界到來


2021 年,超高清邁入 “8K” 時代。超高清視頻將帶來全新視聽體驗,但超高清生產在內容生產層面也面臨着超高清存量少、生產設備更新換代慢、制作周期成倍增加的困境。在 7 月 10 日的 Imagine 阿里雲視頻雲全景創新峰會上,達摩雲資深算法專家謝宣松,發表了《AI 技術驅動超高清 “視” 界》的主題演講,從超高清產業的生產現狀與困境出發,深度剖析 AI 技術如何驅動視聽升級,並分享了達摩院在超高清生產領域的實踐經驗,以下為演講內容整理。

image.png

超高清產業發展現狀

視覺是一個生理學詞匯。通過視覺,人和動物感知外界物體的大小、明暗、顏色、動靜,獲得對機體生存具有重要意義的各種信息。從物理現象角度來看,也就是視網膜對光的各種感應,包括光的亮度、細節描述,還包括跟時間相關的這些信息。而對視覺沖擊力最大的就是視頻

image.png

AI 在視頻方面能發揮什么作用?

AI 在視頻發揮的作用主要分成兩部分,第一部分是最基礎的,AI 對視頻或者圖像的理解,體現在我們視頻中常見的分類、打標、檢測、分割等。AI 是與人相關的,因為人肯定一上來先理解世界,所以 AI 要發揮它的作用,第一步就是理解學習。

第二部分和生產類相關,比如生產、編輯、加工、擦除、插入等,其中 AI 在底層視覺就是發揮它的增強作用。那么 AI 是如何在底層視覺上發揮它的作用的呢?

視覺是人類最重要的感覺,所以視頻的體驗的問題是重中之重。體驗會和很多東西相關,人類也在不斷追求着體驗,第一是清晰度的追求,從 4K 到 8K,信息包含量越來越多,細節的豐富程度也越來越高。2021 年 4k 超高清視頻已經普及,並邁入 8K 高清時代。

第二是色彩,更生動的色彩,這也是影響人體驗的一個非常重要的地方。第三個則是更沉浸式的體驗。

那 AI 可以發揮些什么作用呢?能不能在各行各業進行應用呢?

image.png

首先是超高清視頻,2014 年國家發布 4K 的戰略,到現在已經過去了 7 年,4K 開始朝着更高的 8K 方向發展。在這個過程當中內容永遠是滯后的,基礎設施反而是超前的,像 4K 電視,現在消費者仍然不會去購買一台最基本配置的 4K 電視,而信號的基礎設施已經邁向了 8K、5G

去年春節進行了第一次 8K 直播,東京奧運會、北京冬奧會都會有 8K 直播,而且 8K 的直播會越來越多。

image.png

但 8K 直播有很多困難,因為視頻是完整內容生產的過程。其實有很多環節,例如素材采集,素材采集現在已經消費級別化了,1080P、4K 級別的素材采集,利用手機就可以滿足。但怎么生產內容,拍一下視頻是否就算是生產了?

其實它只是最基本最簡單的生產,對內容生產來說分兩塊:第一塊是存量的內容,從古老的黑白到后來有色畫面但分辨率很低的內容。技術和人的體驗的要求越來越高,所以之后的內容制作的周期和要求越來越高。

技術在內容生產方面可以發揮巨大的價值,因為技術無外乎兩個東西,第一個降本提效,這是最根本的。第二是創新,能夠快速快捷低成本創造新的機會。

所以技術在這塊會發揮非常大作用,包括網絡傳輸、終端是需要完善整個產業鏈的。而我今天所講的只是其中的一個點,但這一點也需要非常多技術來補完。

AI 技術驅動視聽升級

要提高視覺體驗,最基本的是增加可以觀察到的細節,而跟細節最相關的就是分辨率,但分辨率需要終端設備支持,所以這是第一點,也是最重要的。

第二是流暢絲滑的視覺體驗,目前大部分是顯示器是 60 赫茲,但也有 120 赫茲、240 赫茲、甚至 360 赫茲的顯示器,赫茲代表着屏幕每秒的刷新率,也就是每秒鍾屏幕出現圖像畫面的次數。屏幕支持的赫茲數越高,每秒顯示的畫面也就越多,視頻觀感也更流暢。

之前的帶寬不足,不足以支持那么多的畫面信號傳輸,而視頻本身的幀數也達不到流暢的體驗。

當然,技術可以彌補視頻自身上的不足,來提高視頻的視覺體驗。

image.png

第一個是關注細節,第二關注流暢度,第三關注色彩。4K 內容是有國家明確規范的,你要想稱之為 4K 內容,你要先滿足這些條件。

從這三個層次來看,技術上追求細節可能就會出現很多瑕疵,因為這里很多初試者,經常用 GAN 系列技術,在生產過程當中會經常出現不可控因素,導致出現瑕疵。

實話說,我一直想把視覺生產定義成可控的視覺內容生產,既能夠保證細節的還原,同時又能夠保證瑕疵的控制,這需要很核心的技術,這是第一。

image.png

第二個,算法除了要控制超分辨率以外,另外算法的源頭是什么?是數據,大家普遍覺得數據有兩種,低分辨率和高分辨率,因為低畫質和高畫質是一對的。

這些數據怎么獲取,有很多手段。主要的辦法是用人工的方式、高成本的方式,獲取這兩種數據,能不能用技術的方式真正生產高仿真、高真實的數據對(data pair),這是未來很大的一個課題。

最后要使 AI 技術在實踐當中使用,把效果和效率上平衡做好,這本身也是個問題。

第一個要解決的是數據規模。因為 AI 的數據規模是海量的,在這些場景大家感受到的比較差的畫質,很多細節都已經損失掉了。很多模糊的東西,色彩不對的地方,AI 是無法憑空繪制出這些數據的,所以能不能設計個方案,使 AI 用算法自動獲取真實的數據,目前,這是非常難的一個課題。

在比較早的時候大家用簡單的方式,要想追求更好一點,可能用一些數據核,使得清晰的畫面變得不清晰,然后去制造一個數據對。當然可能做了核之后加一些東西,加一些噪聲,那有了這些以后是不是就行了?其實也不行,因為所有的視頻要通過編碼、解碼,在傳輸過程中又會產生很多損失。

所以怎么模擬損失的那部分?設計一個好的算法,對編解碼本身也是很好的,這一系列考慮下來,低質和高質的數據對可以做非常多事情,這里面牽扯到對噪聲的分析、場景的分析,不同場景關注點的不一樣,動漫畫更關注邊緣,運動場景比較高的關注運動的動作,還有復雜的場景可能會關注很多的細節。

image.png

所以在這些方面需要做非常多的數據分析和數據生產,也許平時大家就是做一個算法,讓一堆人打標,畫框就行了,所以在這個問題中,數據對的生成是個命題,怎么獲取到真實的訓練數據。當然這個數據除了真實以外還要有規模,達摩院在技術這一方面花費了很多的努力。

超高清生產實踐

image.png

接下來怎么增強?比如怎么增強人像,我們現在比較重要的方法就是加入 GAN 系列技術進去,達摩院開源了 GPEN 的高清算法。

在各種視頻新聞中,很多人像基於這個算法做了修復,在 B 站等各平台播放,起到了很好的 PR 作用,這些都是基於達摩院的算法去修復的。

這里面第一個加入了 GAN 的先驗網絡也加了生成式數據發生器。基本分三大類,第一類針對內容的,當然針對特征層面的,還有針對 GAN 層面的 Loss 在里面,所以可以得到針對人像非常好的基礎模型。這是其中一種。

當然對真實的物理世界來說人雖然是最重要的,但文字、風景等各種細節,也需要算法來完善增強。

image.png

關於解決流暢度的問題,在很多時候,尤其在運動變化率非常大時經常會出現瑕疵,所以怎么在不同的尺度、出現不同的瑕疵時,檢測並彌補修復,然后提升流暢度,這需要很多的工作來完善。

除了細節增強,數據的還原、生成,還有瑕疵的檢測,差分的檢測,顏色的調准,非常多算法可以發揮它的作用,這一系列組合起來視頻才能夠完成從低清到 4K 到 8K 的演進,這本身也是個系統工程。

image.png

所以從這三個維度也無所謂傳統與不傳統的方法,大家都是利用深度學習的方法增強分辨率,幀率、色彩還有細節,還有在不同場景下怎么完善算法更好。

有了這些算法,形成真正可用的產品和服務還有很長的路要走,這就是系統工程要做的事情。基本來說,從原創的素材,加上 AI 視覺生產、智能生產,畫面增強,還有內容加工,得到內容之后怎么編輯、修改、生成封面、拆條,這里面都可以做很多的技術來發揮作用。

圖片.gif

上圖展現了人物照片 AI 增強后的效果,利用開源的 GPEN 高清算法實現面部增強,增強后的視覺效果很棒,但實際上還有很多難點在里面,如果這個照片源頭非常差或者受到很嚴重的污損,要想做好的增強還是很困難的。

另外這是一個綜合的東西,可能用到面部的增強,但也不能脫離環境生產,要和背景相結合。如果是很古老的照片,還要做色彩還原,包括黑白變成彩色等。

畫質增強,當然對於視頻來說更復雜,原始畫面的比較暗,但加上色彩會更加生動,再加上超分以后細節更突出,這時車不是那么流暢,加一個差分使得汽車行駛畫面更流暢。從色彩到細節再到流暢度再加上場景增強,形成了完整的視覺增強,這是屬於視頻視覺處理技術。

達摩院視頻綜合增強 效果展示

https://v.youku.com/v_show/id_XNTE5MTkzODIxMg==.html

最后 AI 驅動高清往前走,智能是最基本的,達摩院是做 AI 技術的,所以能不能自適應去做事情非常重要。自適應好像很簡單,但事實上在不同的場景,AI 技術並沒有所謂的普適性的能力。

在有卡通時,有新聞人物時,有紀錄片時,我們希望 AI 能夠有適應的完整系統,用萬能的模型去處理,而不是單一的模型,使 AI 自適應的針對不同場景采用最優質的算法。

最后自我評估這是很重要的有意思的話題,對於主觀的視頻增強技術好不好,如何去評判它,本身也是很困難的事情,達摩院也會在視頻增強技術投入很多的時間去做,去完善。

當然還需要系統去承載它,視頻雲就是這個基礎設施平台,使得可以高效率規模化地做各種各樣 AI 視頻視覺增強的任務

image.png

當然現在 AI 慢慢朝着兩個維度走,第一個走向消費者,平民百姓,為大家服務。另外深入到各行各業為大家提供降本提效,以及創新各種各樣的機會。AI 技術將基於視頻雲,驅動未來的高清視界。

「視頻雲技術」你最值得關注的音視頻技術公眾號,每周推送來自阿里雲一線的實踐技術文章,在這里與音視頻領域一流工程師交流切磋。公眾號后台回復【技術】可加入阿里雲視頻雲產品技術交流群,和業內大咖一起探討音視頻技術,獲取更多行業最新信息。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM