基於圖像的三維物體重建:在深度學習時代的最新技術和趨勢綜述之三維曲面解碼


作者:Longway

來源:公眾號@3D視覺工坊

鏈接: 基於圖像的三維物體重建:在深度學習時代的最新技術和趨勢綜述之三維曲面解碼

1.三維曲面解碼

基於體積表示的方法在計算上非常浪費,因為信息只在三維形狀的表面或其附近豐富。直接處理曲面時的主要挑戰是,網格或點雲等常見表示沒有規則的結構,因此,它們不容易適應深度學習體系結構,特別是使用CNN的體系結構。本節介紹用於解決此問題的技術,將最新技術分為三大類:基於參數化、基於模板變形和基於點的方法。

1.1基於參數化的三維重建

與直接使用三角形網格不同,我們可以將三維形狀X的表面表示為映射ζ:D→R3,其中D是正則參數化域。然后,3D重建過程的目標是從輸入I中恢復形狀函數ζ。當D是3D域時,這類方法屬於第4節中描述的體積技術。

這里,重點討論D是正則2D域的情況,它可以是二維平面的子集,例如D=[0,1]2,或者是單位球面,即D=S2。在第一種情況下,可以使用標准的2D卷積操作來實現編碼器-解碼器架構。在后一種情況下,必須使用球面卷積,因為域是球面的。

球面參數化和幾何圖像是最常用的參數化。然而,它們只適用於0屬和盤狀表面。任意拓撲的曲面需要切割成圓盤狀的曲面片,然后展開成規則的二維區域。找到給定曲面的最佳切割,更重要的是,在同一類別的形狀之間找到一致的切割是一項挑戰。事實上,單純地為形狀類別創建獨立的幾何圖像並將其輸入深層神經網絡將無法生成連貫的三維形狀曲面。

基於參數化方法僅限於低屬曲面,它們適合於重建屬於給定形狀類別的對象,例如人臉和身體。

1.2基於形變的三維重建

取一個輸入I,並估計一個變形場∆,當它作用於一個模板三維形狀時,得到重構的三維模型X。現有的技術在它們使用的變形模型的類型、模板的定義方式以及用於估計變形場∆的網絡體系結構方面有所不同。在下面的內容中,假設一個三維形狀X=(V,F),有n個頂點V={v1,,vn}和面F。設X~= (V~, F)表示模板形狀。

1.2.1變形模型

(1)頂點變形:這個模型假設一個三維的形狀X可以用模板的單個頂點的線性位移來表示,即∀v i∈V,vi=v~i+δi,其中δi∈R3。變形場定義為∆=(δ1,…,δn)。這個變形模型,如下圖所示,已經在多個地方使用。假設形狀X的頂點與模板X的頂點之間存在一對一的對應關系;形狀X的拓撲結構與模板X的拓撲結構相同。

(2)形變模型模型:可以使用學習的變形模型來參數化三維網格,而不是使用通用模板。設V˜為平均形狀,∧1,,∧K是一組正交基。任何形狀V都可以用以下形式表示:

上式的第二項可以看作是一個變形場,應用於平均形狀的頂點V˜。學習可變形模型的一種方法是對一組干凈的三維網格樣本使用主成分分析(PCA)。最近的技術表明,僅使用2D注釋,就可以從2D輪廓或2D圖像構建特定類別的3D可變形模型。這些方法需要對目標進行有效的檢測和分割,並使用基於CNN的技術進行攝像機姿態估計。

(3)自由變形(FFD)。不必直接變形模板X˜的頂點,可以變形模板周圍的空間,如下圖所示。可以通過定義在X˜周圍的m個控制點的一組集合P∈R m×3,稱為變形處理。當變形場∆=(δ1,…,δm),m<<n,應用於這些控制點時,它們使形狀周圍的整個空間變形,因此,它們也根據以下等式使形狀的頂點V變形:

其中變形矩陣B∈Rn×m是一組多項式基,Φ是一個m×m矩陣,用於在FFD場中施加對稱性,而∆是位移。

自由變形的主要優點是不需要形狀和模板之間的一一對應關系。然而,可以被模板的FFD近似的形狀只是那些具有與模板相同的拓撲結構的形狀。

1.2.2定義模板

Henderson[1] 定義了兩種類型的模板:抽象為立方基元的復雜形狀和細分為多個頂點的立方體。前者適用於具有多個組件的人造形狀,后者適用於表示屬0形狀,與使用球體或橢球體相比沒有優勢。

為了加快收斂速度,Kuryenkov[2]引入DeformNet,它以圖像為輸入,從數據庫中搜索最近的形狀,然后使用上式方程的FFD模型對檢索到的模型進行變形,以匹配查詢圖像,這種方法允許保留細節的三維重建。

Pontes[3]使用了類似於DeformNet的方法。然而,一旦FFD字段被估計並應用於模板,則通過添加定義為從字典中檢索的一些3D模型的加權和的殘差來進一步細化結果。深度神經網絡的作用是學習如何估計變形場∆和用於計算求精殘差的權重。

另一種方法是學習模板,或者分別使用統計形狀分析技術(例如,PCA)對一組訓練數據進行學習,或者使用深度學習技術與變形場聯合學習。Kanazawa[4]同時學習平均形狀和變形場。因此,該方法不需要單獨的3D訓練集來學習可變形模型。在這種情況下,重建結果都缺乏細節,僅限於汽車和鳥類等熱門類別。

1.2.3網絡架構

基於變形的方法同樣使用編碼器-解碼器架構。編碼器使用連續卷積運算將輸入映射到隱變量x,它可以是離散的或連續的,解碼器通常由完全連接的層組成。

Kuryenkov[2]從數據庫中檢索與輸入I最相似的三維模型,然后估算使其變形以匹配輸入所需的FFD,而不是對球體或橢圓進行變形。檢索到的模板首先進行體素化,並使用3D CNN編碼到另一個隱變量xt中。然后,使用上卷積網絡將輸入圖像的隱表示和檢索到的模板的隱表示連接起來並解碼為定義在體素網格頂點上的FFD場。

Pontes[3]使用了類似的方法,但是隱變量x被用作分類器的輸入,該分類器從數據庫中找到與輸入最接近的模型。同時,使用前饋網絡將隱變量解碼成變形場∆和權重αi,i=1,,K。然后使用∆和CAD模型字典的加權組合與權重αi,對檢索到的模板進行變形。

注意,可以為這些方法設計多個變體。例如,可以使用特定於類的平均形狀,而不是使用從數據庫檢索的三維模型作為模板。在這種情況下,隱變量x可用於將輸入分類為形狀類別之一,然后選擇該類別的學習平均形狀作為模板。

基於參數化和變形的技術只能重建固定拓撲的曲面。前者僅限於低屬的曲面,后者僅限於模板的拓撲結構。

1.3基於點的技術

3D形狀可以用無序集合S= {(xi , yi , zi)} (1≤i≤N)的N個點來表示。這種基於點的表示方法很簡單,但是在內存需求方面很有效,它非常適合於精細細節的對象。

1.3.1模型表示

點雲的主要挑戰在於它們不是規則結構,不容易融入利用空間規則性的卷積結構。為了克服這一限制,提出了三種模型表示方法:

•點集表示將點雲視為大小為N×3的矩陣;

•一個或多個尺寸為H×W×3的三通道網格。網格中的每個像素編碼(x,y,z)三維點的坐標;

•多視角深度圖。

后兩種表示(以下稱為網格表示)非常適合卷積網絡,它們也具有計算效率,因為它們只使用二維卷積進行推斷。

1.3.2網絡架構

與基於體積和表面的表示類似,使用基於點的表示的技術遵循編碼器-解碼器模型。雖然它們都對編碼器使用相同的架構,但它們在解碼器的類型和架構上有所不同,如下圖所示。

通常,網格表示使用卷積網絡來解碼隱變量,見下圖a和b。點集表示(圖c)使用完全連接的層,因為點雲是無序的。全連接層的主要優點是它們捕獲全局信息。然而,與卷積運算相比,它們在計算上是昂貴的。

Fan[5]提出了一種結合點集表示和網格表示的生成深度網絡(上圖a)。該網絡由一系列編碼器-解碼器塊組成:

•第一個塊獲取輸入圖像並將其映射為隱表示,然后將其解碼為大小為H×W的三通道圖像。每個像素處的三個值是一個點的坐標。

•隨后的每個塊獲取其先前塊的輸出,並進一步將其編碼和解碼為大小為H×W的3通道圖像。

•最后一個塊是編碼器,與前一個塊類型相同,然后是由兩個分支組成的預測器。第一個分支是解碼器,它預測大小為H×W(在本例中為32×24)的三通道圖像,其中每個像素處的三個值是點的坐標。第二個分支是全連通網絡,它預測一個N×3大小的矩陣,每行是一個3D點(N=256)。

•兩個分支的預測使用集合聯合合並,生成一個大小為1024的3D點集。

其他兩個網絡遵循同樣的想法,這里就不再詳細介紹。基於點的表示可以處理任意拓撲的三維形狀。然而,它們需要一個后處理步驟,例如泊松曲面重建,來檢索感興趣的3D曲面網格,從輸入到獲得最終網格的過程也無法進行端到端的訓練。

【1】P. Henderson and V. Ferrari,“Learning to generate and reconstruct 3D meshes with only 2D supervision,”BMVC, 2018.

【2】A.Kurenkov, J. Ji, A. Garg, V. Mehta, J. Gwak, C. Choy, and S. Savarese,“DeformNet: Free-Form Deformation Network for 3D Shape Reconstruction from aSingle Image,” IEEE WACV, 2018.

【3】J. K.Pontes, C. Kong, S. Sridharan, S. Lucey, A. Eriksson, and C. Fookes,“Image2Mesh: A Learning Framework for Single Image 3D Reconstruction,” ACCV,2018.

【4】A.Kanazawa, S. Tulsiani, A. A. Efros, and J. Malik, “Learning Category-SpecificMesh Reconstruction from Image Collections,” ECCV, 2018.

【5】H. Fan, H.Su, and L. Guibas, “A point set generation network for 3D object reconstructionfrom a single image,” in IEEE CVPR, vol. 38, 2017.

本文僅做學術分享,如有侵權,請聯系刪文。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM