基於圖像的三維物體重建:在深度學習時代的最新技術和趨勢綜述之性能比較和未來研究方向


作者:Longway

來源:公眾號@3D視覺工坊

鏈接: 基於圖像的三維物體重建:在深度學習時代的最新技術和趨勢綜述之性能比較和未來研究方向

1性能比較

本節討論一些關鍵方法的性能,下面將介紹各種性能標准和度量,並討論和比較一些關鍵方法的性能。

1.1精度指標和性能標准

設X為真實三維形狀,X~為重建形狀。下面將討論一些用於比較三維重建算法的精度指標和性能標准。

1.1.1精度指標

評估三維重建算法精度最常用的量化指標包括:

(1)均方誤差(MSE)。它定義為重構形狀X~與真實X之間的對稱表面距離,即

這里,nX和nX~分別是X和X~上密集采樣點的數目,d(p,X)是p到X沿垂直方向到X的距離,例如L1或L2距離。距離越小,重建就越好

(2)聯合交叉(IoU)。IoU測量預測形狀的體積與真實體積的交集與兩個體積的並集的比率,即

其中I(·)是指示函數,V~i是第三個體素的預測值,Vi是基本真值,是閾值。IoU值越高,重建效果越好,這一指標適用於體積重建。因此,在處理基於曲面的表示時,需要對重建的和真實的三維模型進行體素化。

(3)交叉熵(CE)損失的平均值。定義如下:

其中N是體素或點的總數,具體取決於是使用體積表示還是基於點的表示。p和p~分別表示在i點處體素或點的真值和預測值。CE值越低,重建效果越好。

1.1.2性能標准

除了這些定量指標外,還有幾個定性方面用於評估這些方法的效率。這包括:

(1)三維監督程度。基於深度學習的三維重建方法的一個重要方面是訓練時對三維監督的程度。事實上,雖然獲取RGB圖像很容易,但獲取其相應的真實3D數據卻相當具有挑戰性。因此,在訓練過程中,與那些需要真實三維信息的技術相比,通常更傾向於需要最少或不需要三維監督的技術。

(2)計算時間。雖然訓練速度可能很慢,但通常情況下,希望在運行時實現實時性能。

(3)內存占用。深層神經網絡具有大量的參數。其中一些使用三維卷積對卷進行操作。因此,它們通常需要較大的內存存儲,這會影響它們在運行時的性能並限制它們的使用。

1.2比較與討論

下圖介紹了過去4年重建精度的改進。早期的研究大多采用體素化表示,它既可以表示任意拓撲復雜對象的表面細節,也可以表示復雜對象的內部細節。隨着O-CNN、OGN和OctNet等空間分割技術的引入,體積技術可以獲得相對較高的分辨率,例如5123。這是由於內存效率的顯著提高。

然而,由於這些技術實現的復雜性,只有一些論文采用了這些技術。為了實現高分辨率的三維體積重建,最近的許多論文都使用了中間表示,通過多個深度圖,然后進行體積或基於點的融合。

最近,有幾篇論文開始關注學習連續有符號距離函數的機制或連續占用網格,這些機制在內存需求方面要求較低。它們的優點是,由於它們學習了一個連續的場,因此可以在所需的分辨率下提取重建的三維物體。

上圖顯示了自2016年以來,使用ShapeNet數據集作為基准的幾年來性能的演變。在大小為323的體網格上計算的IoU度量上,我們可以看到在訓練和測試時使用多個視圖的方法優於僅基於單個視圖的方法。此外,2017年開始出現的基於表面的技術略優於體積方法。

下表展示了一些有代表性的方法的性能。

2未來研究方向

在過去五年的廣泛研究中,利用深度學習技術進行基於圖像的三維重建取得了很好的效果。然而,這一專題仍處於初級階段,有待進一步發展。在本節中將介紹一些當前的問題,並強調未來研究的方向。

(1)訓練數據問題。深度學習技術的成功在很大程度上取決於訓練數據的可用性,不幸的是,與用於分類和識別等任務的訓練數據集相比,包含圖像及其3D注釋的公開數據集的大小很小。二維監督技術被用來解決缺乏三維訓練數據的問題。然而,它們中的許多依賴於基於輪廓的監督,因此只能重建視覺外殼。

因此,期望在未來看到更多的論文提出新的大規模數據集、利用各種視覺線索的新的弱監督和無監督方法,以及新的領域適應技術,其中使用來自某個領域的數據訓練的網絡(例如,合成渲染圖像)適應新的領域。研究能夠縮小真實圖像和綜合渲染圖像之間差距的渲染技術,可能有助於解決訓練數據問題。

(2)對看不見的物體的一般化。大多數最新的論文將數據集分成三個子集進行訓練、驗證和測試,例如ShapeNet或Pix3D,然后測試子集的性能。但是,還不清楚這些方法如何在完全不可見的對象/圖像類別上執行。實際上,三維重建方法的最終目標是能夠從任意圖像中重建任意三維形狀。然而,基於學習的技術僅在訓練集覆蓋的圖像和對象上表現良好。

(3)精細的三維重建。目前最先進的技術能夠恢復形狀的粗糙三維結構,雖然最近的工作通過使用細化模塊顯著提高了重建的分辨率,但仍然無法恢復植物、頭發和毛皮等細小的部分。

(4)重建與識別。圖像三維重建是一個不適定問題。因此,有效的解決方案需要結合低層次的圖像線索、結構知識和高層次的對象理解。如Tatarchenko[44]最近的論文所述,基於深度學習的重建方法偏向於識別和檢索。因此,他們中的許多人沒有很好地概括,無法恢復精細的尺度細節。期望在未來看到更多關於如何將自頂向下的方法(即識別、分類和檢索)與自下而上的方法(即基於幾何和光度線索的像素級重建)相結合的研究,這也有可能提高方法的泛化能力。

(5)專業實例重建。期望在未來看到特定於類的知識建模和基於深度學習的三維重建之間的更多協同作用,以便利用特定於領域的知識。事實上,人們對重建方法越來越感興趣,這些方法專門用於特定類別的物體,如人體和身體部位、車輛、動物、樹木和建築物。

專門的方法利用先前和特定領域的知識來優化網絡體系結構及其訓練過程。因此,它們通常比一般框架表現得更好。然而,與基於深度學習的三維重建類似,建模先驗知識需要三維注釋,這對於許多類型的形狀(例如野生動物)來說是不容易獲得的。

(6)在有遮擋和雜亂背景的情況下處理多個對象。大多數最先進的技術處理包含單個對象的圖像。然而,在野生圖像中,包含不同類別的多個對象。以前的工作采用檢測,然后在感興趣的區域內重建。

然而,這些任務是相互關聯的,如果共同解決,可以從中受益。為實現這一目標,應處理兩個重要問題。一是缺乏多目標重建的訓練數據。其次,設計合適的CNN結構、損失函數和學習方法是非常重要的,特別是對於沒有3D監督的訓練方法。這些方法通常使用基於輪廓的損失函數,需要精確的對象級分割。

(7)3D視頻。本文研究的是一幅或多幅圖像的三維重建,但沒有時間相關性,而人們對三維視頻越來越感興趣,即對連續幀具有時間相關性的整個視頻流進行三維重建。一方面,幀序列的可用性可以改善重建,因為可以利用后續幀中可用的附加信息來消除歧義並細化當前幀處的重建。另一方面,重建的圖像在幀間應該平滑一致。

(8)走向全三維場景解析。最后,最終目標是能夠從一個或多個圖像中語義分析完整的3D場景。這需要聯合檢測、識別和重建。它還需要捕獲和建模對象之間和對象部分之間的空間關系和交互。雖然在過去有一些嘗試來解決這個問題,但它們大多局限於室內場景,對組成場景的對象的幾何和位置有很強的假設。

3總結和結論

本文綜述了近五年來利用深度學習技術進行基於圖像的三維物體重建的研究進展,將最新技術分為基於體積、基於表面和基於點的技術。然后,根據它們的輸入、網絡體系結構和它們使用的訓練機制討論了每個類別中的方法,還討論並比較了一些關鍵方法的性能。

這項調查的重點是將三維重建定義為從一個或多個RGB圖像中恢復對象的三維幾何體的問題的方法。然而,還有許多其他相關問題也有類似的解決辦法。包括RGB圖像的深度重建、深度圖像的三維重建、新視角合成和三維形狀結構恢復等等。在過去五年中,這些主題已被廣泛調查,需要單獨的調查報告。

本文僅做學術分享,如有侵權,請聯系刪文。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM