CVPR2020:訓練多視圖三維點雲配准
Learning Multiview 3D Point Cloud Registration
源代碼和預訓練模型:https://github.com/zgojcic/3D_multiview_reg
論文地址:
摘要
提出了一種新的、端到端可學習的多視點三維點雲配准算法。多個掃描的配准通常遵循兩個階段的流程:初始成對對齊和全局一致優化。前者由於相鄰點雲重疊程度低、對稱性強、場景部分重復等原因,往往具有模糊性。因此,后一種全局求精旨在建立跨多個掃描的循環一致性,並有助於解決不明確的情況。在本文中,我們提出了第一個端到端的算法來聯合學習這兩個階段的問題。對已被廣泛接受的基准數據集進行的實驗評估表明,我們的方法在可訓練性和計算成本方面顯著優於最新水平。此外,我們提出了詳細的分析和消融研究,驗證了我們的方法的新組成部分。
1.介紹
三維計算機視覺中的下游任務,如語義分割和目標檢測,通常需要場景的整體表示。因此,將單個點雲碎片(僅覆蓋環境的一小部分)對齊和融合為全球一致的整體表示的能力至關重要,在增強現實和機器人技術中有多個用例。相鄰片段的成對配准是一個研究得很好的問題,基於幾何約束的傳統方法[51,66,56]和手工設計的特征描述子[37,27,54,59]在一定程度上取得了成功的結果。然而,近年來,對於三維點雲成對配准的局部描述符的研究主要集中在深度學習方法[67、38、21、64、19、28]上,這些方法成功地捕獲和編碼了隱藏在手工設計的描述符中的證據。此外,最近提出了一種新的端到端點雲配准方法[62,42]。雖然在許多任務中表現出良好的性能,但場景的個別視圖的成對配准在概念上有一些缺點:(i)相鄰點雲的低重疊會導致不准確或錯誤的匹配,(ii)點雲配准必須依賴非常局部的證據,如果3D場景結構稀少或重復,這可能是有害的,(iii)需要單獨的后處理來將所有成對匹配組合成全局表示。與成對方法相比,無組織點雲碎片的全局一致多視圖對齊尚未完全受益於深度學習方法的最新進展。最先進的方法通常仍然依賴於成對映射的良好初始化,它們試圖在隨后的分離步驟中全局重新定義成對映射[30、61、2、3、5、4、43、11]。這種分層過程的一個普遍缺點是,在姿勢圖的所有節點上的全局噪聲分布最終遠離隨機,即由於高度相關的初始成對映射,顯著的偏差持續存在。在本文中,我們提出了第一種端到端數據驅動的多視點雲配准算法。我們的方法以一組可能重疊的點雲作為輸入,並為每個輸入掃描輸出一個全局/絕對變換矩陣(c.f.圖1)。我們脫離了傳統的兩階段方法,即各個階段彼此分離,直接學習以全局一致的方式配准場景的所有視圖。我們工作的主要貢獻是:
•我們在端到端神經網絡中提出了傳統的兩階段方法,該方法在前向過程中解決了兩個可微優化問題:(i)估計成對變換參數的Procrustes問題和(ii)變換同步的譜松弛問題。
•我們提出了一個置信度估計塊,該塊使用新的重疊池層來預測估計的成對變換參數的置信度。
•我們將mutliview三維點雲配准問題轉化為迭代加權最小二乘(IRLS)問題,並迭代重新確定成對和絕對變換估計。
基於上述貢獻,提出的多視點配准算法(i)計算效率非常高,(ii)由於殘差以迭代的方式反饋到成對網絡,所以實現了更精確的掃描對准,(iii)在成對和多視點雲上優於當前技術水平配准。
2.相關工作
成對配准傳統的成對配准管道包括兩個階段:粗對齊階段,它提供了相對變換參數的初始估計和在剛性變換假設下通過最小化3D配准誤差迭代地重新確定變換參數的增強階段。前者傳統上是通過使用手工制作的[54、59、58]或學習的[67、38、21、20、64、28、16]3D局部特征描述符與RANSAC類穩健估計器[26、52、40]或幾何散列[24、8、32]結合來建立逐點候選對應。平行的工作流[1,57,44]依賴於使用4點同余集建立對應關系。在增強階段,粗變換參數通常使用迭代最接近點(ICP)算法的變體進行微調[6]。類ICP算法[41,63]通過交替假設對應集和估計新的變換參數集來執行優化。眾所周知,它們對異常值不具有魯棒性,並且只有在良好的預處理開始時才會收斂到全局最優值[9]。ICP算法通常被擴展到使用額外的輻射、時間或里程限制[69]。與我們的工作同步,[62,42]提議將粗略和有限的成對配准階段集成到端到端可學習算法中。利用一個深度網絡,[31]將目標跟蹤作為兩點集的相對運動估計。
多視圖配准多視圖,全局點雲配准方法旨在通過合並多個視圖的提示來解決成對方法中出現的困難或模糊情況。第一類方法采用類似於多視圖ICP的方案來優化相機姿勢以及3D點對應關系[36、25、45、9]。其中大多數都受到通信估計復雜性增加的影響。為了緩解這種情況,一些方法只對運動進行優化,並使用掃描來評估配准錯誤[69,56,7]。更進一步,其他現代方法利用全局循環一致性,僅對從初始成對映射集開始的姿勢進行優化。這種有效的方法稱為同步[10,61,2,56,3,5,43,69,7,35]。運動的全局結構[17,70]旨在通過分解旋轉、平移和縮放分量來同步觀測到的相對運動。[23]提出了一種使用兩個網絡的全局點雲配准方法,一個用於姿態估計,另一個通過估計全局坐標的占用狀態來建模場景結構。與我們最相似的工作可能是[35],作者的目標是通過學習數據驅動的權重函數來調整變換同步層的邊緣權重。我們方法的一個主要概念差異是,使用FPFH[54]結合FGR[69]來估計相對變換參數,因此,與我們的方法不同,不需要學習。此外,在每次迭代中[35]必須將點雲轉換為深度圖像,因為權重函數由2D CNN近似。另一方面,我們的整個方法直接在點雲上操作,是完全可微的,因此有助於以端到端的方式學習全局多視圖點雲配准。
3. 理論與實驗測試
我們將提出的多視圖三維配准算法作為依賴於數據的函數組合。然后,詳細說明了用於近似這些功能的網絡架構。我們首先提出了一種新的學習成對點雲配准算法,該算法使用兩個點雲作為輸入,並輸出估計的變換參數。該方法通過使用一個易於反向傳播的變換同步層擴展到多點雲。該同步層的輸入圖連同相關變換參數一起,將這些成對映射(也使用新的神經網絡估計)中的可信度作為邊緣信息進行編碼。最后,我們提出了一個IRLS方案,通過更新邊緣權值和成對姿態來重新確定所有點雲的全局配准。
燒蝕研究
為了獲得更好的直覺,我們在ScanNet[18]數據集上進行了一項消融研究。特別地,我們分析了基於置信度估計塊和柯西函數的邊緣剪枝方案,以及相關變換參數迭代的影響。
消融研究的結果如圖4所示。
按照3DMatch[67]的評估過程,我們用基於RANSAC的變換參數估計來補充所有基於描述符的方法。對於我們的方法,我們在成對配准網絡(1-iter in Tab)之后報告結果。以及第四次迭代中Ψiter(·)的輸出(表4-iter)。后者已經得到了全局信息的通知,主要用於驗證隨着迭代,我們對Transf Sync層的輸入得到了改進。與3DMatch評估過程一致,我們在Tab1中報告每個場景的平均召回率以及整個數據集的平均召回率。
多視圖配准算法實現為一個深度神經網絡(圖2)。如圖2所示,網絡的各個部分連接到端到端的多視圖3D配准算法中。
圖3顯示,我們的方法可以在不接受合成數據訓練的情況下獲得比現有方法高≈4個百分點的召回率,從而證實了我們的方法具有良好的泛化能力。注意,雖然所有方法在場景中的平均精度都很低,但一些工作[14、38、22]表明,使用修剪可以很容易地提高精度,而不會在召回中造成任何損失。
分析結果,如表3所示。與基線相比,該方法在多視圖配准任務上有較大的改進。與FGR[69]的方法相比,我們的方法不僅能更准確地估計初始的成對相對變換參數,而且在后續的迭代中,它們還可以得到進一步的改進。這顯然證實了我們算法反饋回路的好處。此外,即使直接考慮到所有的輸入邊,我們的方法仍然被證明是占主導地位的,即使考慮到方案的結果對我們的競爭對手“有利”。多視圖配准評估的更多定性結果(包括失敗案例)可在補充材料中獲得。
計算復雜度低的成對和多視圖配准的計算成本對於各種領域,如增強現實或機器人,都是非常重要的。我們首先比較了我們的成對配准組件和RANSAC的計算時間。在制表符中。我們報告了配准3DMatch數據集的一個片段對和一個完整場景所需的平均時間。
受益於迭代響應,我們激勵輸入到傳輸同步層的變換參數的迭代響應,並認為權重和殘差為其估計提供了額外的問題。圖4的結果證實了這一假設。第4次迭代的輸入相關參數比初始估計值高出約2個百分點。另一方面,圖4示出在高度存在邊緣修剪方案的情況下,有幾種可能的方法來實現可假設的離群邊緣的修剪。在我們的實驗中,我們根據置信度估計塊(w-conf.)的輸出來修剪邊緣。其他的選擇是使用全局置信度來實現這一步驟,即(14)(w-Cau.)中定義的柯西權重,或者根本不執行(w/o)。圖4清楚地顯示了使用我們的置信度估計塊的優勢(增益超過20個百分點)。更重要的是,由於保留了大量的離群值,替代方法的性能甚至比成對配准差。