本文轉載自機器之心。
選自arXiv
作者:Zhanghan Ke 等機器之心編譯
編輯:魔王
沒有綠幕怎么摳圖?此前,華盛頓大學的研究人員提出用背景圖替換 trimap,不用綠幕也能實現不錯的摳圖結果。但該方法需要處理和對齊原始圖像和背景圖兩張圖像,不便於現實應用。近日,香港城市大學和商湯提出一種新型人像摳圖方法 MODNet,不用綠幕、只用單張圖像、單個模型即可實時完成人像摳圖。
人像摳圖即預測一個精確的前景蒙版(alpha matte),然后利用它從給定圖像或視頻中提取人物。這一技術得到了廣泛的應用,如照片編輯、電影再創作等。目前,實時獲得高質量前景蒙版仍需要綠幕的輔助。
但如果沒有綠幕呢?目前大部分摳圖方法使用預定義 trimap 作為先驗。但,trimap 需要人類標注,所需成本高昂,並且如果是通過深度相機捕獲,還會出現低精度問題。因此,近期的一些工作嘗試消除模型對 trimap 的依賴,即 trimap-free 方法。例如,華盛頓大學提出的 background matting 方法用分離背景圖像來替代 trimap。其他方法使用多個模型先生成偽 trimap 或語義掩碼,然后將其作為先驗進行前景蒙版預測。但使用背景圖像作為輸入需要輸入並對齊兩張圖像,使用多個模型會使推斷時間顯著增加。這些缺陷使得前述所有摳圖方法不適用於現實應用,如相機預覽。此外,受到標注訓練數據不足的限制,trimap-free 方法在實踐中常遇到域偏移問題,即模型無法很好地泛化至現實數據。
能不能只用一個模型、一張 RGB 圖像,來預測精確的前景蒙版呢?最近,香港城市大學和商湯合作提出了一種輕量級網絡 MODNet,它將人像摳圖任務分解成三個相關的子任務,並通過特定約束執行同步優化。
先來看一下 MODNet 的摳圖效果:
MODNet 模型背后存在兩種洞見:
一,神經網絡更擅長學習一組簡單目標,而不是一個復雜目標。因此,解決多個摳圖子目標可以實現更好的性能。
二,對每個子目標應用顯式監督信號,可以使模型的不同部分學習解耦的知識,從而實現一個模型解決所有子目標。
為了克服域遷移問題,該研究基於子目標一致性 (SOC) 提出了一種自監督策略,即利用子目標之間的一致性來減少預測前景蒙版中的偽影。此外,該研究還提出單幀延遲 (OFD) trick 這種后處理方法,以在視頻摳圖應用中獲得更流暢的輸出。MODNet 框架參見下圖:
相比 trimap-free 方法,MODNet 具備以下優勢:
-
MODNet 更快:它專為實時應用而設計,輸入大小為 512 × 512 時,MODNet 在 Nvidia GTX 1080Ti GPU 上的運行速度為 63 fps;
-
MODNet 獲得了新的 SOTA 結果,原因在於:1)目標分解和同步優化;2)對每個子目標應用特定的監督信號;
-
MODNet 具備更好的泛化能力,這得益於 SOC 策略。
盡管 MODNet 的結果沒有超過那些基於 trimap 的方法,但實驗表明 MODNet 在實際應用中更加穩定,原因就在於其移除了 trimap 輸入。該方法對實時人像摳圖任務中綠幕的必要性提出了挑戰。
現有開源人像摳圖數據集的規模或精度均有一定限制,之前很多研究是在質量和難度等級不同的私人數據集上進行模型訓練和驗證的。這就使得不同方法的對比變得困難。而這項研究在統一的標准下評估現有的 trimap-free 方法:所有模型均在相同數據集上訓練完成,並在來自 Adobe Matting 數據集和該研究提出的新基准數據集的人像數據中執行驗證。研究人員表示,他們提出的新基准完成了高質量標注,多樣性也優於之前的基准,因而能夠更全面地反映出摳圖性能。
總之,這項研究提出了新型網絡架構 MODNet,可實時完成 trimap-free 人像摳圖。研究者還提出了兩項技術 SOC 和 OFD,使 MODNet 能夠很好地泛化至新的數據領域,視頻摳圖質量更加平滑。此外,該研究還構建了新的人像摳圖驗證基准數據集。
MODNet 方法
基於多個模型的方法表明,「將 trimap-free 摳圖看作 trimap 預測(分割)步驟加上基於 trimap 的摳圖步驟」能夠實現更好性能。這表明,神經網絡從分解復雜目標中受益。於是,該研究將這一思路繼續擴展,將 trimap-free 摳圖目標分解為語義估計、細節預測和語義 - 細節融合三個子目標。直觀來看,語義估計輸出粗糙的前景掩碼,細節預測生成細粒度的前景邊界,而語義 - 細節融合則將這二者的特征進行混合。
如圖 2 所示,MODNet 包含三個分支,每一個均通過特定約束學習不同的子目標。具體而言:
-
低分辨率分支用於估計人類語義(監督信號是真值蒙版的縮略圖);
-
高分辨率分支用於辨別人像邊界(監督信號是過渡區域 (α ∈ (0, 1));
-
融合分支用來預測最終的前景蒙版(監督信號是整個真值蒙版)。
實驗
該研究創建了新型人像摳圖基准 PPM-100,並在其上對比了 MODNet 和現有的人像摳圖方法,還證明了 SOC 和 OFD 策略對於 MODNet 適應現實數據的有效性。
PPM-100 基准
該研究提出了新型人像摳圖基准 Photographic Portrait Matting benchmark (PPM-100),包含 100 張精心標注、背景不同的人像。如下圖 4 所示, PPM-100 中的樣本背景更加自然、人物姿勢更豐富,因此數據也更全面。
在 PPM-100 上的性能結果
研究者在 PPM-100 上對比了 MODNet 和 FDMPA、LFM、SHM、BSHM、HAtt,結果參見下表 1。從中可以看出,MODNet 在 MSE 和 MAD 這兩項指標上超過其他 trimap-free 方法,但仍遜色於基於 trimap 的 DIM 方法。將 MODNet 修改為基於 trimap 的方法后,其性能超過 DIM。
下圖展示了不同方法的效果對比情況:
從中可以看出,MODNet 可以更好地處理空心結構(第一行)和頭發細節(第二行),但在處理難度較大的姿勢或服飾時仍然會出現問題(第三行)。
在現實數據上的性能結果
下圖展示了 MODNet 在現實數據上的摳圖效果,從圖中可以看出 SOC 對於模型在現實數據上的泛化能力非常重要,OFD 可以進一步使輸出結果更加平滑。
MODNet 不基於 trimap,因而能夠避免錯誤 trimap 的問題。圖 8 展示了 MODNet 與基於 trimap 的 DIM 方法的對比結果:
此外,研究者還對比了 MODNet 和華盛頓大學提出的 background matting (BM) 方法,參見圖 9。從圖中可以看出,當移動對象突然出現在背景中時,BM 方法的結果會受到影響,而 MODNet 對此類擾動具備魯棒性。
-
論文鏈接:https://arxiv.org/pdf/2011.11961.pdf
-
項目地址:https://github.com/ZHKKKe/MODNet
-