Dense 3D Face Decoding over 2500FPS: Joint Texture & Shape Convolutional Mesh Decoders - 1 - 論文學習


Abstract

3D Morphable Models (3DMMs)是一種統計模型,它使用一組線性基和更特殊的主成分分析(PCA)來表示面部紋理和形狀的變化。采用3DMMs作為統計先驗,通過求解非線性最小二乘優化問題,從圖像中重建三維人臉。最近,3DMMs被用作訓練非線性映射的生成模型。通過深度卷積神經網絡(Deep Convolutional Neural Networks, DCNNs)將圖像轉換為模型的參數。然而,以上所有的方法要么使用全連接層,要么在參數化的展開UV空間上使用二維卷積,從而得到具有許多參數的大型網絡。在本文中,我們提出了第一個非線性3DMMs,通過使用直接網格(direct mesh)卷積學習聯合紋理和形狀自動編碼器。我們演示了如何使用這些自動編碼器來訓練非常輕的模型,在自然環境下以超過2500幀/秒的速度執行彩色網格解碼(Coloured Mesh Decoding,CMD)。

 

1. Introduction

二十年前,Blanz和Vetter展示了一個非凡的成就[2]。他們證明了從一張圖像中重建三維面部幾何結構是可能的。這是有可能的,通過解決一個非線性優化問題,其解決空間被一個三維面部形狀和紋理的線性統計模型,即所謂的3D Morphable model (3DMM)所限制。基於3DMMs的方法仍然是最先進的三維面部重建技術,即使是從自然環境下捕獲的圖像[6,4,5]重建。
在過去的兩年中,人們就如何利用深度卷積神經網絡(DCNNs)從二維人臉圖像中獲取三維形狀和紋理信息進行了大量的工作。第一種方法是訓練DCNNs從圖像到3DMM[36]的參數的回歸,或者使用3DMM合成圖像,利用DCNNs[31]形成一個圖像到圖像的轉換問題來估計深度。最新的、更復雜的、基於DCNN的方法使用自監督技術進行訓練[17、37、38],並利用可微的圖像形成體系結構和可微渲染器[17]。最近的方法,如[37,38]和[34]使用自監督方法在紋理和形狀方面超越了標准的3DMMs方法。特別是,[34]同時使用了3DMMs模型和其他網絡結構(稱為correctives),它們可以捕獲3DMMs空間之外的信息,以表示形狀和紋理。[37,38]中的方法嘗試學習直接來自數據的形狀和紋理的非線性空間(即,解碼器,即所謂的非線性3DMMs)。然而,為了避免訓練效果不佳,這些方法在模型預訓練前使用了3DMMs配件。
在上述所有方法中,線性或非線性解碼器形式的3DMMs,要么使用全連接的節點[36]進行建模,要么(尤其是在紋理空間中)使用未封裝的UV空間上的2D卷積進行建模[37,38]。在本文中,我們采取了一個完全不同的方向。出於對幾何深度學習(GDL)領域的研究,試圖概括DCNNs到非歐幾里得域,如圖表/manifolds/網格(33,12,21,7,27],我們第一次嘗試開發一個使用mesh卷積的非線性3DMMs來描述形狀和紋理。除了使用網格卷積更直觀地定義非線性3DMMs外,它們的主要優點是由參數數量非常少的網絡定義,因此計算復雜度非常小。

綜上所述,本文的貢獻如下:

  • 我們展示了最近用於發現稠密或稀疏對應的技術(例如,densereg[18],路標定位方法[40])如何可以很容易地擴展到利用網格卷積解碼器來估計三維面部幾何信息。
  • 我們展示了據我們所知第一個使用網格卷積的非線性3DMM。該方法直接在網格域上對形狀和紋理進行解碼,具有緊湊的模型大小(17MB)和驚人的效率(在CPU上超過2500 FPS)。該解碼器不同於最近提出的[27]解碼器,該解碼器僅對三維形狀信息進行解碼。
  • 我們提出了一種編碼器-解碼器結構,可以直接從自然環境中的二維面部圖像重建紋理和形狀。由於提出的彩色網格解碼器(CMD)的效率,我們的方法可以估計超過300幀/秒的三維形狀(對於整個系統)。

 

2. Related Work

在接下來的文章中,我們將簡要討論相關的文獻主題,如線性和非線性的3DMM表示。
Linear 3D Morphable Models.  在過去的二十年中,用於表示和生成3D人臉的方法主要是主成分分析(PCA)。在許多著作[2,3,29]中都使用PCA建立統計三維形狀模型(即, 3D Morphable Models (3DMMs))。最近,主成分分析法被用於構建三維人臉[6]和頭[11]的大規模統計模型。將面部特征的變化與表情的變化相分離是表征和生成人臉的重要方法。因此,我們引入了統計混合形狀模型,該模型僅表示使用PCA的表情變量[22,9]。原始的3DMM[2]使用PCA模型來描述紋理變化。然而,這對從自然條件下捕獲的圖像來說是相當有限的描述紋理變化的方法。
Non-linear 3D Morphable Models.  在過去的一年中,人們首次嘗試學習非線性的3DMMs[37,38,34]。這些3DMMs可以看作是使用DCNNs的解碼器,再加上一個圖像編碼器。具體來說,[34]方法采用了自監督的方法來學習一個新的具有全連接層的解碼器,該解碼器將線性3DMM與能夠重構任意圖像的新結構相結合。類似地,這些方法[37,38]使用全連接層或UV圖上的2D卷積來解碼形狀和紋理。
以上方法均采用全連接層或二維卷積來定義非線性3DMM解碼器。然而,這些方法導致了具有大量參數的深度網絡,並且沒有利用三維面部結構的局部幾何特征。因此,能在非歐幾里得人臉網格域中直接使用卷積的解碼器需要被構造。非歐幾里得域上的深度學習領域,也被稱為幾何深度學習[7],最近得到了一些普及。第一個作品包括[23],它提出了所謂的MeshVAE,它使用來自於[39]的卷積運算符和使用了與光譜Chebyshev過濾器[12]類似的體系結構的CoMA[27]以及額外的空間池來生成3D面部網格這三部分來訓練一個變分自動編碼器(VAE),。作者證明了在只有8個維度的非常小的維度潛在空間中,CoMA比PCA更能表示面部表情。
在本文中,我們提出了第一個自動編碼器,直接使用網格卷積聯合紋理和形狀表征。提出了一種高效的彩色網格解碼器,可用於來自自然環境下的數據的三維人臉重建。

 

3. Proposed Approach

3.1. Coloured Mesh Auto-Encoder

Mesh Convolution.  我們定義了基於不定向連通圖G = (V, ε)的網格自編碼器, V∈Rn×6是一組包含連接點形狀(如x, y, z)和紋理(如r、g、b)信息的n個頂點,;ε∈{0,1} n×n是編碼頂點之間的連接狀態的鄰接矩陣。
遵循[12,26],非規范化圖拉普拉斯算子(Laplacian)被定義為 L = D − ε∈Rn×n ,其中D∈Rn×n是元素為Dii =􏰀∑j εij的對角矩陣; 規范化定義為L = In − D1/2εD1/2,其中 In是單位矩陣。拉普拉斯算子L可以通過傅里葉變換U = [u0,…,un−1]∈Rn×n, L = UΛUT,其中Λ = 

diag([λ0,...,λn−1)∈Rn×n。圖像傅里葉變換的臉表征x∈Rn×6被定義為xˆ= UTx,和它的逆矩陣為x = Uxˆ。
卷積的操作在一個圖表可以定義為通過使用遞歸切比雪夫多項式[12、26]制定一個帶有內核gθ的網格過濾器。過濾器gθ可以被參數化為一個截斷K階切比雪夫多項式展開式:

其中θ∈RK是一個切比雪夫系數向量,Tk(Λ̃)∈Rn×n 是k階切比雪夫多項式在一個按比例縮小的拉普拉斯算子Λ̃= 2Λ/λmax − In上的計算。Tk可以遞歸計算為Tk(x) = 2xTk−1(x)−Tk−2(x), T0 = 1, T1 =x。

 

譜卷積可以定義為: 

其中x∈Rn×Fin是輸入,y∈Rn×Fout是輸出。整個過濾操作y = gθ(L) x是非常有效的,只花費了O(K |ε|)大小的操作。

 

Mesh Down-sampling and Up-sampling.  我們跟隨[26]使用二值變換矩陣Qd∈{0,1}n×m對一個頂點為m的網格進行下采樣,使用另一個變換矩陣Qu∈Rm×n進行上采樣。
Qd是在最小化二次誤差[15]的約束下,通過迭代收縮頂點對計算得到的。在下采樣時,我們將丟棄的頂點的質心坐標存儲在下采樣網格中,這樣上采樣步驟就可以添加具有相同質心位置信息的新頂點。
對於上采樣,在向下采樣步驟中直接保留的頂點進行卷積變換。在下采樣過程中丟棄的頂點將使用記錄的重心坐標映射到下采樣的網格表面。利用稀疏矩陣乘法對頂點為Vu的上采樣網格進行有效預測,即Vu = QuVd

 

3.2. Coloured Mesh Decoder in-the-Wild

在自然環境下擬合的非線性3DMM采用無監督/自監督的方式設計。由於我們可以用彩色網格自動編碼器來構造連接的形狀和紋理基,因此可以把這個問題看作是基和重建3D人臉的最佳系數之間的矩陣乘法。從神經網絡的角度來看,這可以被視為一個圖像編碼器EI(I;θI)被訓練回歸到3維形狀和紋理中,表示為fSA。如圖2所示:

 

使用二維卷積網絡對自然環境下的圖像進行編碼並接着使用網格解碼器D(fSAD)解碼,解碼器D的權重與網格自動編碼器中的解碼器[10]中共享。然而,聯合形狀和紋理解碼器的輸出是一個單位球體內的彩色網格。與線性3DMM[4]一樣,相機模型需要將以物體為中心的笛卡爾坐標的三維網格投影到同一個笛卡爾坐標的圖像平面中。
Projection Model. 在本研究中,我們使用了一個針孔相機模型,它利用了一個視角轉換模型。投影操作的參數可以表示為:

 

 

式中,p, o, u分別表示攝像機在直角坐標系中的位置、方向和垂直方向。f是控制透視投影的視場(FOV)。我們還將照明參數與攝像機參數連接起來,作為被圖像編碼器預測的呈現參數。假設有三個點光源和恆定的環境光,總共有12個參數l用於照明。為了簡單,我們表示渲染參數為m = (cT, lT)T是大小為22(c向量10 + I向量12)的向量(圖2中encoder的另一個綠色輸出)和投影模型函數ˆI = P(D (fSA);m): R3N→R2N
Differentiable Renderer.  為了使網絡是端到端可訓練的,我們合並一個可微的渲染器[17](即上面的函數P)去投射輸出網格D (fSA)到圖像平面ˆI。L1范數被明智地作為損失函數來計算。渲染器,也稱為光柵化器,為圖像平面上的每個像素生成質心坐標和相應的三角形IDs。渲染過程包括Phong着色[25]和根據質心坐標插值。此外,相機和照明參數計算在同一框架。整個管道能夠進行端到端的訓練,通過可微渲染器反向傳播損失梯度。
Losses. 我們制定了一個損失函數聯合應用於控制下的彩色網格自動編碼器和自然環境下的彩色網格解碼器,從而實現監督和自監督端到端的訓練。其公式如下:

目標函數為:

1)編碼-解碼器損失

分別對形狀S和紋理A應用l2和l1規范,對彩色網格自動編碼器進行形狀和紋理重構。

2)渲染器的損失

表示當僅對可見的面部像素應用mask時,對自然環境下的圖像的像素級重建損失。在訓練時我們使用λ= 0.01,然后逐漸增加到1.0。

 

4. Experimental Results

4.1. Datasets

我們使用控制下的數據(3DMD[13])和自然環境下的數據(300W-LP[40]和CelebA[24])來訓練我們的方法。3DMD數據集[13]包含3564個具有不同表情變化的唯一標識的大約21k個原始掃描。300W-LP數據集[40]包含約60k大姿態面部數據,這些數據是通過[40]的profiling方法綜合生成的。CelebA數據集[24]是一個大型的人臉屬性數據集,擁有超過200k的名人圖像,覆蓋了大量的姿態變化和背景雜音。每個訓練圖像被裁剪到有着68個面部定位點的索引的邊界框中,帶有隨機擾動來模擬粗糙的人臉檢測器。
我們在AFLW2000-3D [40], 300VW[30]和CelebA testset[24]上進行了大量的定性實驗。我們還與之前在FaceWare-house[8]和Florence[1]上的工作進行了定量比較,在這兩個平台上可以獲得精確的三維網格進行評估。FaceWare-house是一個由Kinect RGBD攝像頭收集的三維面部表情數據庫。包含了來自不同種族、年齡在7歲到80歲之間的150名候選人。Florence是一個三維人臉數據集,包含53個目標,他們的真實三維網格從結構光掃描系統獲得。

 

4.2. Implementation Details

Network Architecture.  我們的架構由4個子模塊組成,如圖2所示,分別命名為Image Encoder[37,38]、Colour Mesh Encoder[26]、一個共享的Colour Mesh Decoder[26]和可微渲染模塊[17]。圖像編碼器部分采用形狀為112×112×3的輸入圖像,然后是10個卷積層。它將輸入圖像的維數減少到7×7×256,並應用全連接層構造一個256×1維的嵌入空間。每個卷積層后面都有一個批處理規范化層和ReLU激活層。所有卷積層的核大小為3,對任意下采樣卷積層的步長為2。彩色網格解碼器的嵌入尺寸為256×1,解碼為28431×6的彩色網格(3個形狀和3個紋理通道)。編碼器/解碼器由4個幾何卷積濾波器[26]組成,每個濾波器后面都有一個向下/向上采樣層,該層將頂點數減少/增加4倍。每個圖卷積層后面都有一個ReLU激活函數,與圖像編碼器中的激活函數類似。
Training Details.  (1)控制下的彩色網格自動編碼器和(2)自然條件下的彩色網格解碼器是端到端聯合訓練的,盡管它們使用不同的數據源。這兩個模型都使用Adam優化器進行了訓練,初始學習率為1e-4。每個epoch的學習率衰減率為0.98。我們訓練了200個epoch的模型。我們用隨機翻轉、隨機旋轉、隨機縮放和隨機剪切的方法使訓練圖像從136×136的輸入變為112×112的大小。

 

4.3. Ablation Study on Coloured Mesh Auto- Encoder

Reconstruction Capacity.  我們比較線性和非線性3DMMs在表示不同嵌入維度的真實三維掃描的能力,以強調我們的彩色網格解碼器的緊湊性。這里,我們使用來自3DMD數據集的10%的3D面部掃描作為測試集。
如圖3頂部所示:

 

我們比較了線性和非線性模型重建結果的視覺質量。為了量化形狀建模的結果,我們使用了歸一化平均誤差(NME),它是根據眼距歸一化的真實形狀和重建形狀之間的每個頂點的平均誤差。對於紋理建模的評估,我們使用了基於真實和重建紋理之間的像素平均絕對誤差(MAE)。
如表1所示:

我們的非線性形狀模型的形狀重構誤差明顯小於線性模型。此外,該聯合非線性模型顯著地降低了重建誤差,表明整合紋理信息有助於約束頂點的變形。對於紋理重建的比較,由於我們的模型內插了頂點之間缺失的紋理信息,所以紋理的重建誤差會略高一些,而線性模型具有完整的紋理信息。

Attribute Embedding.  為了更好地理解彩色網格解碼器中嵌入的不同人臉,我們研究了語義屬性嵌入。對於一個給定的屬性,例如smile,我們將帶有該屬性的人臉數據(形狀和紋理)輸入到我們的彩色網格編碼器中,得到嵌入參數,它代表了該屬性在低維嵌入空間中的相應分布。以均值參數fSA為輸入訓練彩色網格解碼器,我們可以重建帶有該屬性的平均形狀和紋理屬性。在對嵌入參數進行主成分分析的基礎上,可以方便地使用一個變量(主成分)來改變屬性。圖3顯示了一些從潛在空間中采樣紋理的三維形狀。在這里,我們可以觀察到,我們的非線性彩色網格解碼器的能力是優秀的建模表情,照明,甚至是帶有一個緊密的嵌入尺寸(fSA = 256)的胡子。

 

 

4.4. Coloured Mesh Decoder Applied In-the-wild

4.4.1 3D Face Alignment

由於我們的方法可以同時對形狀和紋理進行建模,因此我們將其應用於自然環境下的三維形態擬合,並測試了稀疏三維人臉對齊的性能。我們將我們的模型與最新的最先進的方法進行比較,例如在AFLW2000-3D[40]數據集上使用3DDFA[40]、N-3DMM[37]和PRNet[14]。其精度由歸一化平均誤差(NME)來評估,這是由三個姿態子集[40]的邊界框大小歸一化的定位點誤差的平均值。


3DDFA[40]是一個級聯的CNNs,它迭代地在多個步驟中改進它的估計。N-3DMM[38]利用2D深度卷積神經網絡在UV位置和紋理映射上構建非線性3DMM,並以弱監督方式擬合無約束的2D自然環境下的人臉圖像。本方法采用彩色網格解碼器構建非線性三維模型。我們的模型不僅具有更好的性能,而且具有更緊湊的模型大小和更有效的運行時間。PRNet[38]采用了一個編碼-解碼神經網絡來直接還原UV位置圖。由於網絡的復雜性,該方法的性能略低於PRNet。
在圖4中:

我們給出了一些示例性的對齊結果,這些結果展示了在極端姿態、誇張表情、重遮擋和可變光照下成功的稀疏三維人臉對齊結果。我們還發現稠密形狀(頂點)的預測在自然環境下也是非常可靠的,這意味着對於任何類型的面部定位點配置,如果對應我們的形狀配置的定位點是給定的,我們的方法都能夠給出准確的定位結果。

 

4.4.2 3D Face Reconstruction

我們首先定性地比較我們的方法與五種最新的最先進的3D面部重建方法:(1)以監督的方式學習3DMM擬合網絡(Sela et al .[31]), (2) 一個命名為MoFA的以一種無監督的方式學習的3DMM擬合網絡(Tewari et al .[35]),(3)一個命名為VRN的直接體積CNN回歸方法(Jackson et al。[19]), (4)一個命名為PRNet的以直接UV位置映射回歸的方法(Feng et al .[14]),(5)一個命名為N-3DMM的以弱監督方式學習的非線性3DMM擬合網絡(Tran et al。[38])。由於PRNet和N-3DMM都使用了UV位置映射上的2D卷積網絡來學習形狀模型,因此我們將PRNet和N-3DMM視為與我們的方法最接近的基線。
Comparison to Sela et al. [31]。它們的基本圖像到圖像的網絡是根據線性模型生成的合成數據進行訓練的。由於合成圖像和真實圖像之間的區域間隙,在自然環境中測試時,網絡輸出在一些被遮擋的區域趨於不穩定(圖5),這將導致后續步驟的失敗:

 

相比之下,我們的彩色網格解碼器是在真實世界的無約束數據集上以端到端的自監督的方式進行訓練的,因此我們的模型在處理自然環境上的變化方面是健壯的。此外,Sela等人的[31]方法需要一個緩慢的脫機非剛性注冊步驟(∼180秒)來從預測深度映射獲得無孔重構。然而,提出的彩色網格解碼器可以運行非常快。此外,我們的方法是對Sela等人的[31]的精細細節重建模塊的補充。使用Shape from Shading(SFS)[20]來完善我們的擬合結果,可以導致更好的結果與細節。

Comparison to MoFA [35].  Tewari等人提出的單眼三維人臉重建方法MoFA采用了一種無監督的方式在自然環境下學習3DMM擬合。然而,它們的重構空間仍然局限於線性基。因此,當處理非常具有挑戰性的紋理時,他們的重建將發生非自然的表面變形情況,如圖6所示的胡子:

 

與此相反,我們的方法使用一個非線性的彩色網格解碼器來共同重建形狀和紋理。因此,我們的方法可以實現高質量的重建結果,甚至是在毛狀紋理方面。 

 

Comparison to VRN [19].  我們還將我們的方法與Jackson等人提出的直接體積回歸方法進行了比較。VRN通過帶有跳躍連接(即Hourglass結構)的編碼-解碼器網絡直接回歸三維形狀體,以避免顯式使用線性3DMM先驗。這種策略可能有助於網絡探索比線性模型更大的解決方案空間。然而,這種方法丟棄了人臉網格與回歸目標之間的對應關系,使得回歸目標的尺寸非常大。圖7顯示了VRN和我們的方法的三維面部重建的可視化比較:

一般來說,VRN可以很好地處理自然環境下的紋理變化。然而,由於體積形狀的表征,表面不光滑,不能保留細節。相比之下,我們的方法直接對頂點的形狀和紋理建模,因此模型尺寸更緊湊,輸出結果更平滑。
除了與目前最先進的三維人臉重建方法進行定性比較外,我們還對FaceWarehouse數據集[8]和Florence數據集[1]進行了定量比較,以展示我們提出的彩色網格解碼器的優越性。


FaceWarehouse. 按照[35,38]中的相同設置,我們還定量地將我們的方法與之前在FaceWarehouse數據集[8]中的9個主題上的工作進行了比較。可視化和定量比較如圖8所示:

我們取得了與Garrido等人[16]和N-3DMM[38]相當的結果,同時也超過了其他所有的回歸方法[36,28,35]。如圖8右側所示,我們可以很容易地從這三個樣本的着色頂點推斷出它們的表達式。

 

Florence. 根據[19,14]中的相同設置,我們還對我們的方法與Florence數據集[1]上的最新方法(例如VRN[19]和PRNet[14])進行了定量比較。從真實點雲計算人臉邊界框,裁剪人臉圖像作為網絡輸入。在如[19,14]對每個主題配置的不同的姿態:傾斜旋轉-15、20和25和在-80和80之間進行原始旋轉。我們只選擇了公共面區域來比較性能。為了進行評估,我們首先使用Iterative Closest Points(ICP)算法來找出模型輸出與真實點雲之間對應的最近鄰點,然后計算由三維坐標眼間距歸一化的均方誤差(MSE)。
從圖9(a)可以看出,我們的方法得到了能與PRNet比較的結果:

為了更好地評估我們的方法在不同姿態下的重建性能,我們計算了不同偏航角下的NME。如圖9(b)所示,所有的方法在近正面視圖下都獲得了良好的性能。然而,隨着偏航角的增加,3DDFA和VRN不能保持較低的誤差。我們的方法在姿勢變化下的性能相對穩定,與PRNet在側面視圖下的性能相當。

 

4.5. Running Time and Model Size Comparisons

在表3中:

我們比較了多種三維重建方法的運行時間和模型大小。由於有些方法沒有公開[31,35,38],我們只提供了一個大概的估計。Sela等人的[31]、VRN[19]和PRNet[14]都使用了運行時間類似的編碼器-解碼器網絡。然而,Sela等人的[31]需要昂貴的非剛性注冊步驟和細化模塊。
我們的方法得到一個與N-3DMM[38]和MoFA[35]可比的編碼器運行時間。然而,對於形狀和紋理,N-3DMM[38]需要通過兩個CNNs解碼特征。MoFA[35]直接使用線性基,對於28K點解碼步驟為約1.5ms的單乘法。相比之下,提出的彩色網格解碼器只需要一個高效的網格卷積網絡。在CPU (Intel i9-7900X@3.30GHz)上,我們的方法可以在0.367 ms (2500FPS)內完成彩色網格解碼,比使用線性形狀基更快。我們的非線性彩色網格解碼器(17M)的模型大小幾乎是MoFA中使用的線性形狀基(120MB)的七分之一。最重要的是,上述實驗證明我們的非線性網格解碼器的容量遠遠高於線性基。

  

5. Conclusions

提出了一種基於網格卷積的非線性3DMM方法。我們的方法直接在網格域上解碼形狀和紋理,具有緊湊的模型大小(17MB)和非常低的計算復雜度(CPU上超過2500 FPS)。在網格解碼器的基礎上,我們提出了一種圖像編碼器和一種彩色網格解碼器結構,可以直接從自然環境上的二維人臉圖像中重建紋理和形狀。大量的定性可視化和定量重建結果證實了該方法的有效性。

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM