我在2021年3月份來到了字節跳動的火山引擎部門,擔任智能美化特效CVsdk的產品實習生。這段實習中認識了很棒的mentor,很可愛的同事,這是一段很快樂的時光!
實習結束了,我也來到了新的公司。總想為上半年留下點什么,正好碰到朋友約稿寫一寫AI落地的小行業,就動筆寫了這篇博文,經過改編后將會發到朋友的公眾號上。
抖音快手等短視頻的爆火在拉動泛娛樂行業快速前進的同時,也催生着美顏特效產業不斷壯大。比起高大上的AI名詞,在手機App中觸手可得的美顏濾鏡、酷炫特效、貼紙玩法似乎更能吸引大家的注意力。奶瓶面膜、透明雨衣、金鳳凰,哪怕你不是短視頻愛好者,也難免會被他們吸引住目光。
這些美顏特效似乎也不止停留在了這些短視頻APP中,我們打開小紅書拍照后可以進行美化處理,我們打開騰訊會議會自帶美顏效果,甚至打開智能電視都能找到系統自帶的貼紙小游戲,就連商湯的打卡機在打卡成功后都會出現有趣的貼紙特效。似乎每一個能讓你看到人臉的地方都有着美顏特效的影子。
美顏特效產業的背后技術
功能項
|
功能小項
|
美顏
|
磨皮、美白、紅潤、銳化
|
美型
|
大眼、瘦臉、小臉、瘦鼻、隆鼻、白牙、縮人中等
|
美體
|
美臀、美胯、豐胸、瘦身、瘦腰、長腿、瘦手臂等
|
美妝
|
腮紅、口紅、修容、美瞳、眼影、眉毛、高光等
|
濾鏡貼紙
|
人像濾鏡、風景濾鏡、食物濾鏡、3D貼紙、GAN特效貼紙、交互貼紙等
|
虛擬形象
|
animoji形象生成、avatar形象驅動
|
看似簡單的美顏特效背后,卻包含着來自算法、工程和產品層面的大量挑戰。僅從技術的角度看,美顏特效大量的使用了計算機視覺(CV)和計算機圖形學(CG)的相關技術。除了這些單點技術本身,如何從多樣的功能和場景中提煉出統一的處理鏈路,也是極度考驗團隊技術實力的一大難題。
我們先看CV和CG這兩項核心技術。利用計算機視覺技術,可以實現對場景的檢測和理解,無論是人臉關鍵點識別、還是面部瑕疵檢測,無論是手勢動作識別,還是自然場景理解,各種智能能力中都包含着以深度學習為核心的CV技術的影子。深度學習的發展大幅度的推動了CV技術的進步,在檢測、分割、智能生成等方面都表現出了極佳的精度、准確度和場景適應性。借助上述算法的識別結果打造強互動性的特效玩法已經成為了行業內的一大發展趨勢。而伴隨着GAN網絡的工程化落地,使用生成式模型打造千人千面的效果也成了各家鼓吹的新興賣點。
除了CV技術外,將虛擬的素材疊加渲染到真實畫面上也是一個重要的環節,這其中離不開CG的各項技術。為了更好的完成工程化落地,各家也會打造自己的特效渲染引擎。渲染引擎往往會適配OpenGL、Neon等多種計算后端並提供統一的調用接口,引擎本身也會針對場景需求進行輕量化改造、跨平台適配、高性能優化等定向開發。經過近幾年的不斷打磨和發展,各家的渲染引擎也變得越發強大,能夠模擬真實的材質、變換的光影,甚至使用GPU粒子系統模擬出近乎真實的煙花效果。
美顏特效不只是一門技術,更是一項完整工程。只有將CV和CG的原子能力進行完善的工程化、系統化和產品化包裝,才能真正的產生客戶價值。不同技術提供商所選用的pipeline各不相同,但無不圍繞着算法和渲染兩大功能簇展開,下圖就是執行流程的一個示例。而在工程化的過程中還會遇到模塊化組件、多機型適配、穩定性優化等多種實際問題。針對效果、性能、成本的不同優化也形成了行業內不同玩家的各自優勢。
美顏特效行業的頭部玩家
商湯
字節
相芯
BAT