[論文翻譯]DynamicFusion:非剛性場景的實時重建與追蹤


DynamicFusion:非剛性場景的實時重建與追蹤

網上很少看到有人對DynamicFusion進行詳細解讀,因此打算翻譯全文,初學SLAM,錯漏之處還望指出。

摘要

通過融合消費級深度攝像機掃描的RGBD圖像,我們首次實現了支持非剛性形變場景的實時稠密SLAM系統。DynamicFusion能重建場景幾何,同時不斷估計一個密集的6維運動場,其將估計的幾何結構映射到實時幀中。像KinectFusion一樣,利用多種手段,我們的系統能生成不斷降噪、精細化,最后完整的重建結果,同時能實時展示更新的模型。由於不需要模板或者其他先驗場景模型,這個方法在移動的物體和場景中有廣泛用途。

正文

傳統的3D掃描包括分開捕獲和離線處理階段,需要十分仔細地規划掃描過程以確保覆蓋所有面。實際上,避免空洞是十分困難的,需要多次迭代捕獲、重建、識別空洞,並重新將缺失的部分掃描來保證模型的完整。像KinectFusion一樣的實時三維重建系統能讓用戶不斷看見重建結果並自動識別待掃描區域,是一個較大的進步。KinectFusion帶動了一系列關於提高追蹤魯棒性、擴展能重建的空間大小的研究。

然而,正如所有的傳統SLAM和稠密重建系統,KinectFusion背后最基礎的假設是被觀測場景是幾乎靜態的。本文中我們處理的核心問題就是怎樣將KinectFusion推廣到實時重建和追蹤動態的、非剛性的場景。為此,我們提出DynamicFusion,一個基於求解體流場(volumetric flow filed) 的方法——體流場將場景每個時刻的狀態轉換到一個固定的規范幀上。例如對於一個移動的人,人物的運動會被逆轉,每個身體特征都會被映射到第一幀的姿態上。在映射之后,場景實際就是剛性的,可以用標准的KinectFusion更新方法來獲得高質量低噪聲的重建結果。這種逐漸降噪的重建結果可以用反轉圖反過來轉化為實時幀;每個規范幀的點都被轉化到實時幀對應的位置上。

對一個動態移動的場景定義規范的“剛性”空間並不直觀。我們工作的一個關鍵貢獻是,對於非剛性變換和融合,我們的方法也能在原本為剛性場景提出的體積掃描融合中保持最優特性。着手點在於逆轉場景運動,以將所有觀測結果都融合到一個固定的幀上,這可以通過單獨計算反轉圖高效地實現。在這種變換下,每個規范點投影到實時相機幀的一個視線中。由於(針對剛性場景的)最優化參數僅和視線有關,我們可以將優化結果泛化到非剛性的情景中。

我們的第二個關鍵貢獻是高效地表示體翹曲(volumetric warp)並實時計算。實際上,即使是相對較低的分辨率,256^3個成型體素為了在對應幀率下計算也需要一億個轉換參數。我們的求解依賴於結合自適應、稀疏且分層的體積函數,以及為了在消費級硬件上實時計算發明的創新算法。總而言之,DynamicFusion是第一個能使用單一深度攝像機對動態場景進行實時稠密重建的系統。

論文的剩余的部分結構如下:在討論完相關工作后,我們在第二節給出DynamicFusion的概覽,在第三節給出技術細節。第四節展示實驗結果,第五節給出總結。

盡管沒有在實時、無需模板、非剛性重建方面的先前工作,仍有兩類相近的工作:1)實時非剛性追蹤算法,2)離線動態重建技術。

實時非剛性模板追蹤。大量非剛性追蹤的研究都集中在人體的部分,為此會事先學習或人工設計對應的特殊形狀和運動模板。最好的幾個工作實現了對臉、手、完整身軀或者一些明確物體的高精度的實時捕獲。

其他技術直接追蹤和成型更一般的網格模型。[論文12]可以追蹤一個靜態已獲得的低分辨率形狀模板,然后不斷用原模型中沒有的高頻幾何細節更新外觀。最近,[論文37]使用GPU加速優化,實現了令人印象深刻的一個類似技術的實時版本。該系統中,物體的稠密表面模型在靜態時被捕獲,為他們的實時追蹤流程生成一個模板。將模板生成和追蹤隔離開使得系統只能處理在幾何重建階段完全靜止的物體和場景,不能重建像小孩或者寵物那種會亂動的對象。

離線連續的追蹤和動態場景重建。離線非剛性追蹤和重建方面的技術文獻越來越多。一些研究者將ICP算法擴展到能處理小型非剛性形變。 在成對3D形狀和較大形變的掃描對齊上的實際改進利用了減少的形變模型參數。特別是,嵌入式形變圖使用稀疏采樣的一組變換基函數,這些函數可以在空間上高效且密集地插值。類剛性重建也有相關工作。混合系統利用已知的運動結構可以實現非剛性形體降噪。其他工作結合了非剛性網格模板追蹤,臨時降噪和補全,但是沒有獲得一個單一的對場景的連續表示。

和我們的工作最為接近的工作是不依賴模板的技術。一個有趣的在無模板非剛性對齊上的方法將非剛性掃描視作一個4D幾何觀測並進行4D形狀重建。[論文30,29]通過成對掃描對齊重建固定的拓撲幾何。[論文24]使用的是時空固體不可壓縮流,這會導致水密重建,並且有效處理嘈雜的輸入點雲數據。[論文28]介紹了動畫制圖,該動畫制圖還通過開發密集的對應匹配方案來估計形狀和每幀變形,該方案以稀疏的地標匹配為種子。最近的使用多個固定kinect相機的工作通過稠密追蹤,以及將所有深度圖數據融合到一個新穎的方向距離函數表示上提出了更大尺度的非剛體重建。

與實時的要求相比,所有這些技術都需要多三到四個數量級的時間。

2.DynamicFusion概覽 DynamicFusion Overview

DynamicFusion將非剛性形變的場景分解為潛在的幾何表面,並重構為剛性的規范空間\({\bf{S}}\in{\Bbb{R}}^3\);每幀的體翹曲場(volumetric warp field)將該表面轉化為實時幀。系統的三個核心算法組件在每個新深度幀到達時依次執行:

1.估計模型到幀的體翹曲場參數(3.3節)

2.通過估計的翹曲場將當前幀深度圖融合到規范空間(3.2節)

3.調整翹曲場結構以捕獲新添加的幾何特征(3.4節)

3.技術細節 Technical Details

我們現詳細描述DynamicFusion的各個部分。首先,我們介紹稠密體翹曲場的參數。這讓我們能對場景內的每幀的形變進行建模。翹曲場是對傳統重建和SLAM系統中靜態空間表示的關鍵擴展,其估計使得非剛性追蹤和場景重建成為可能。

3.1.稠密非剛性翹曲場 Dense Non-rigid Warp Field

我們用體翹曲場表示動態場景運動,其對每個點提供了六維映射:\({\cal{W}}:{\bf{S}}\mapsto{\bf{SE}}(3)\)。盡管稠密三維平移場就足夠描述時序幾何,我們發現同時使用平移和旋轉來表示現實世界的物體會讓追蹤和重建的結果更好。對每一個規范點\(v_c\in{\bf{S}}\)\({\bf{T}}_{lc}={\cal{W}}(v_c)\)將該點從規范空間轉換到實時非剛性形變的參照系。

由於我們需要對每一個新來幀估計翹曲函數\({\cal{W}}_t\),其表示必須能高效優化。一個可行的方案就是對體素進行稠密采樣,例如以TSDF(truncated signed distance function 截斷符號距離函數)幾何表示的分辨率表示一個量化的\({\bf{SE}}(3)\)場。然而,即使是以相對低分辨率(\(256^3\))的典型TSDF體素進行重建,每幀需要的求解的參數數量就是\(6\times256^3\),大約是只需估計一個剛性變換的原始KinectFusion算法1000萬倍。顯然,對翹曲函數完全稠密的參數化是不可行的。現實中,表面趨向於在空間中平滑移動,依此我們可以使用一組稀疏變換為基礎,通過插值定義稠密體翹曲函數。出於計算性能和插值質量的考慮,我們使用對偶四元數混合插值法(dual-quaternion blending, DQB)定義翹曲函數:

\({\cal{W}}(x_c)\equiv SE3({\bf{DQB}}(x_c))\)

單位對偶四元數變換的加權平均值就是\({\bf{DQB}}(x_c)\equiv \frac {\sum_{k\in N(x_c)} {\bf{w}}_k(x_c){\hat{\bf{q}}}_kc} {\|{\sum_{k\in N(x_c)} {\bf{w}}_k(x_c){\hat{\bf{q}}}_kc}\|}\),每個單位對偶四元數\(\hat{\bf{q}}_{kc}\in {\Bbb{R}}^8\)\(N(x)\)是點\(x\)\(k\)個最近鄰變換點,\({\bf{w}}_k\)是描述徑向影響的\({\Bbb{R}}^3\mapsto{\Bbb{R}}\)的權值函數,\(SE3(.)\)表示將四元數變換回\({\bf{SE}}(3)\)的轉換矩陣。翹曲場在時刻\(t\)時的狀態\({\cal{W}}_t\)可以定義為一組形變節點\({\cal{N}}^t_{warp}=\{dg_v,dg_w,dg_{se3}\}_t\)。第\(i\)個節點(\(i=1...n\))在規范空間中的位置是\(dg^i_v\in {\Bbb{R}}^3\),對應的變換矩陣\({\bf{T}}_{ic}=dg^i_{se3}\)\(dg^i_w\)是控制形變影響范圍的權重,\(w_i(x_c)=exp(\frac{-\|dg^i_v-x_c\|^2}{2(dg^i_w)^2})\)。 徑向權重\(dg^i_w\)是為了確保這個被采樣到的形變節點能夠影響到其附近的其他節點,所以與采樣的節點矩陣稀疏程度相關。 由於翹曲函數為所有支持的空間定義了剛體變換,因此空間的位置和任何關聯的方向都將被變換,例如對表面點\(v_c\)和方向\(n_c\),將按以下方式轉換到實時幀\((v_t,1)^T={\cal{W}}_t(v_c)(v^T_c,1)^T\)\((n_t,0)^T={\cal{W}}_t(v_c)(n^T_c,0)^T\)。應當指出,空間的縮放也可以用這種翹曲函數來表示,因為空間的壓縮和擴張是由沿會聚和發散方向移動的相鄰點表示的。最后,我們還可以提取出一個對體積中所有點共同的剛體變換,例如相機移動。因此引入從隱式翹曲模型到實時相機空間的變換\({\bf{T}}_{lw}\) ,與體翹曲函數復合得到完整的翹曲場:

\({\cal{W}}_t(x_c)={\bf{T}}_{lw}SE3({\bf{DQB}}(x_c))\)

3.2. 稠密非剛性表面融合 Dense Non-Rigid Surface Fusion


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM