作者:Longway
來源:公眾號@3D視覺工坊
1.三維人臉重建
基於精細密集圖像的人臉三維重建是計算機視覺和計算機圖形學中一個長期存在的問題,其目標是恢復人臉的形狀、姿態、表情、皮膚反射率和更精細的表面細節。最近,這個問題被描述為一個回歸問題,並用卷積神經網絡來解決。
在本節中,將回顧一些有代表性的論文。目前的技術大多采用參數化表示,即對三維曲面的流形進行參數化處理。最常用的表示是Blanz和Vetter[1]的3D變形模型(3DMM),該模型從幾何和紋理的角度捕捉面部的變化。下面,將主要介紹各種網絡架構及其訓練過程,還將討論一些無模型技術。
1.1網絡架構
主干結構是一個編碼器,它將輸入圖像映射到參數化模型參數中。它由卷積層和完全連接層構成。一般來說,現有技術使用諸如AlexNet之類的通用網絡,或專門針對面部圖像訓練的網絡,例如VGG Face或FaceNet。
Tran[2]使用這種結構來對編碼面部特征和紋理的3DMM的198個參數進行回歸。它已經通過使用L2不對稱損失(有利於遠離平均值的三維重建的損失函數)的三維監督進行訓練。
Richardson[3]使用了類似的架構,但迭代地執行重構。在每一次迭代中,網絡將之前重建的人臉,與輸入的圖像一起,投影到一個使用前置攝像頭的圖像上,並對3DMM的參數進行回歸,並且用平均人臉初始化重構。結果表明,經過三次迭代,該方法可以成功地處理不同表情和光照條件下的人臉重構。
基於3DMM的方法的一個主要問題是,它們傾向於重建平滑的面部表面,而這些表面缺乏皺紋和酒窩等精細細節。因此,此類別中的方法使用求精模塊來恢復細節。例如,Richardson[3]使用來自陰影的形狀(SfS)技術優化重建的臉。
1.2訓練和監督
訓練過程中一個主要的挑戰是如何收集足夠多的訓練圖像,並用它們對應的三維人臉進行標記,從而為網絡提供信息。Richardson[3]通過從可變形模型中隨機抽取樣本並渲染生成的面來生成合成訓練數據。然而,當面對閉塞、異常光照或沒有很好表現的類別時,接受純合成數據訓練的網絡可能表現不佳。
Tewari[4]在沒有3D監督的情況下,訓練編碼器-解碼器網絡,以同時預測面部形狀、表情、紋理、姿勢和燈光。編碼器是一個從圖像到可變形模型坐標的回歸網絡,解碼器是一個固定的、可微的渲染層,試圖再現輸入的照片。
損失測量的是重新制作的照片和輸入的照片之間的差異。由於訓練損失是基於單個圖像像素的,因此網絡容易受到相關變量之間混雜變化的影響。例如,它不能輕易區分暗膚色和昏暗的燈光環境。
為了消除使用3D數據進行監督訓練的需要和對反向渲染的依賴,Genova[5]提出了一個框架,該框架學習基於面部識別網絡產生的面部身份特征來最小化損失。換句話說,人臉識別網絡將輸入的照片以及從重建的人臉中呈現的圖像編碼為特征向量,這些特征向量對姿態、表情、光照輸入都具有魯棒性。
然后,該方法應用一個損失來測量這兩個特征向量之間的差異,而不是使用渲染圖像和輸入照片之間的像素級距離。僅使用人臉識別網絡、可變形人臉模型和未標記人臉圖像數據集訓練三維人臉形狀和紋理回歸網絡。這種方法不僅提高了先前作品的准確性,而且還生成了通常可以識別為原始對象的三維重建。
1.3無模型方法
基於可變形模型的技術僅限於建模子空間。因此,在訓練數據范圍之外,難以置信的重建是可能的。在三維人臉重建的背景下,也探索了其他不受此問題影響的表示方式,如體積網格。例如,Jackson[6]提出了一種體積回歸網絡(VRN),它將二維圖像作為輸入,並預測其相應的三維二值體體積,而不是3DMM。
其他技術使用中間表示方法,例如Sela[7]使用基於U-Net的圖像到圖像轉換網絡來估計深度圖像和面部對應圖,然后執行基於迭代變形的配准和幾何細化過程來重建細微的面部細節。與3DMM不同,該方法可以處理較大的幾何變化。
Feng[8]還研究了無模型方法。首先,設計了一個緊密連接的CNN框架,從水平和垂直的極平面圖像中回歸出三維人臉曲線。然后,將這些曲線轉換為三維點雲,並使用網格擬合算法擬合面部曲面。實驗結果表明,該方法對不同的姿態、表達式和光照具有較強的魯棒性。
2.三維場景分析
目前所討論的方法主要是用於孤立物體的三維重建。具有多個對象的場景在描繪對象、正確處理遮擋、雜波、形狀和姿勢的不確定性以及估計場景布局方面帶來了額外的挑戰。解決這個問題的方法包括三維目標檢測和識別、姿態估計和三維重建。傳統上,這些任務中的許多都是使用手工制作的功能來完成的。在基於深度學習的時代,上訴的幾個模塊已經被cnn取代。
例如,Izadinia[9]提出了一種方法,該方法基於識別室內場景中的對象、推斷房間幾何結構、優化房間中的三維對象姿勢和大小以使合成渲染與輸入照片最佳匹配。該方法檢測對象區域,從CAD數據庫中找到最相似的形狀,然后對其進行變形以適應輸入。利用完全卷積網絡估計房間幾何結構,使用更快的R-CNN執行對象的檢測和檢索。但是,變形和擬合是通過“渲染和匹配”執行的。
Tulsiani[10]則提出了一種完全基於深度學習的方法。輸入由一個RGB圖像和對象的邊界框組成,用一個四分支網絡進行處理。第一個分支是具有跳躍連接的編碼器-解碼器,它估計場景布局的差異。第二個分支獲取整個場景的低分辨率圖像,並使用CNN和三個完全連接的層將其映射到一個隱空間。第三個分支與第二個分支具有相同的體系結構,它將原始分辨率的圖像映射到卷積特征映射,然后進行ROI池化以獲得ROI的特征。最后一層通過完全連接的層映射邊界框位置。
然后將這三個特征串聯起來,並用完全連接的層進行進一步的處理,接着是解碼器,解碼器生成ROI中對象的323個體素網格,並以位置、方向和比例的形式顯示其姿勢。該方法利用合成渲染圖像及其相關的真實三維場景進行訓練。
3.數據集
下表列出並總結了最常用數據集的屬性,與傳統技術不同,基於深度學習的三維重建算法的成功與否取決於大型訓練數據集的可用性。有監督的技術要求圖像及其相應的三維標注,其形式為以體積網格、三角形網格或點雲表示的完整三維模型,也可以是密集或稀疏的深度圖。另一方面,弱監督和無監督技術依賴於額外的監督信號,如外部和內部攝像機參數以及分割掩碼。
為基於深度學習的三維重建收集訓練數據集的主要挑戰是兩方面的。首先,雖然人們可以很容易地收集到二維圖像,但獲取它們相應的三維真實數據是一項挑戰。因此,在許多數據集,如IKEA、PASCAL 3D+和ObjectNet3D中,只有相對較小的圖像子集使用其相應的3D模型進行了注釋。其次,ShapeNet和ModelNet等數據集是目前可用的最大的三維數據集,它們包含的三維CAD模型沒有相應的自然圖像,因為它們最初用於基准三維形狀檢索算法。
這一問題已通過數據擴充得到解決,即用綜合生成的數據擴充原始集合的過程。例如,可以通過對現有圖像應用幾何變換(例如平移、旋轉和縮放)來生成新圖像和新三維模型。注意,盡管有些轉換是保持相似性的,但它們仍然豐富了數據集。
還可以從現有的三維模型中綜合渲染來自各種(隨機)視點、姿勢、照明條件和背景的新的二維和2.5D(即深度)視圖。它們也可以覆蓋自然圖像或隨機紋理。然而,這會導致域移位問題,即合成圖像的空間與真實圖像的空間不同,當在完全不同類型的圖像上測試方法時,這通常會導致性能下降。
最后,弱監督和無監督技術最大限度地減少了對3D注釋的依賴。然而,它們需要分割掩碼,可以使用最新的最先進的目標檢測和分割算法獲得,或者攝像機參數。聯合訓練三維重建、分割和攝像機參數估計是特征研究的一個非常有前途的方向。
【1】V. Blanz and T. Vetter, “A morphablemodel for the synthesis of 3d faces,” in Siggraph, 1999, pp. 187–194.
【2】A. T.Tran, T. Hassner, I. Masi, and G. Medioni, “Regressing robust anddiscriminative 3D morphable models with a very deep neural network,” in IEEECVPR, 2017, pp. 1493–1502.
【3】E.Richardson, M. Sela, and R. Kimmel, “3D face reconstruction by learning fromsynthetic data,” in 3D Vision, 2016, pp. 460–469.
【4】 A.Tewari, M. Zollhofer, H. Kim, P. Garrido, F. Bernard, P. Perez, and C.Theobalt, “Mofa: Model-based deep convolutional face autoencoder forunsupervised monocular reconstruction,” in IEEE CVPR, 2017, pp. 1274–1283.
【5】 K.Genova, F. Cole, A. Maschinot, A. Sarna, D. Vlasic, and W. T. Freeman,“Unsupervised Training for 3D Morphable Model Regression,” in IEEE CVPR, 2018.
【6】A. S.Jackson, A. Bulat, V. Argyriou, and G. Tzimiropoulos, “Large pose 3d facereconstruction from a single image via direct volumetric cnn regression,” inIEEE CVPR, 2017, pp. 1031–1039.
【7】M. Sela,E. Richardson, and R. Kimmel, “Unrestricted facial geometry reconstructionusing image-to-image translation,” in IEEE CVPR, 2017, pp. 1576–1585.
【8】M. Feng,S. Zulqarnain Gilani, Y. Wang, and A. Mian, “3d face reconstruction from lightfield images: A model-free approach,” in ECCV, 2018, pp. 501–518.
【9】H.Izadinia, Q. Shan, and S. M. Seitz, “Im2cad,” in IEEE CVPR, 2017, pp.5134–5143.
【10】S.Tulsiani, S. Gupta, D. F. Fouhey, A. A. Efros, and J. Malik, “Factoring shape,pose, and layout from the 2D image of a 3D scene,” in IEEE CVPR, 2018, pp.302–310.
本文僅做學術分享,如有侵權,請聯系刪文。