FCGF-基於稀疏全卷積網絡的點雲特征描述子提取(ICCV2019)


作者:千百度

點擊上方“3D視覺工坊”,選擇“星標”

干貨第一時間送達

概要

論文: Fully Convolutional Geometric Features

標簽: ICCV 2019; feature, match, registration

作者: Christopher Choy,Jaesik Park, Vladlen Koltun

機構: Stanford University, POSTECH, Intel Labs

論文、代碼地址:在公眾號「3D視覺工坊」,后台回復「ICCV2019」,即可直接下載。

從點雲中提取幾何特征是配准、重建、跟蹤等應用的第一步。SOTA的方法往往需要計算底層特征作為輸入或者提取基於patch的有限感受野的特征。在本論文中,作者提出了FCGF(Fully-Convolutional Geometric Features),它通過全卷積網絡一次計算得到點雲特征;作者還提出了新的度量學習損失,可以顯著提升性能。FCGF是緊湊的,同時捕獲了廣泛的空間上下文,並可擴展到大型場景。論文中在室內數據集和室外數據集均進行了驗證,FCGF在不需要預處理時達到了SOTA精度,同時比其它精確的辦法快600倍,而且結構是緊湊的(32維)。

一、論文的出發點和貢獻

在許多點雲配准、跟蹤和場景流估計(scene flow estimation)任務中,尋找幾何點對應(geometric correspondences)關系是一個關鍵的步驟。因此,大量的工作集中在設計具有區分性的3D特征,進而建立對應關系。

早期的3D特征描述主要依賴於人工設計的特征描述子,如SHOT、FPH和FPFH等,這些局部描述子可以區分局部幾何特征。最近,注意力逐漸轉向了基於深度學習的三維特征,比如PPF-FoldNet(ECCV 2018),PPFNet(CVPR 2018)和3DFeat-Net(ECCV 2018)等。之前的這些工作中存在一些問題:

  • 提取小的3D patch,將其映射到低維空間。這不僅限制了感受野,而且計算效率也很低,因為即使對於重疊的三維區域,網絡的中間表示也都是單獨計算的。
  • 使用昂貴的底層幾何特征作為輸入降低了特征計算的速度。
  • 只對一些interest points提取特征,導致分辨率(點的數量)下降,因此降低了后續的配准精度。

全卷積網絡是高效的,因為它們在具有重疊感受野的神經元之間共享中間激活(intermediate activations)。此外,全卷積網絡中不是直接操作小的patch,因此神經元具有更大的感受野。而且,全卷積網絡產生密集的輸出,這非常適用於詳細描述場景的任務。

盡管全卷積網絡具有這些優點,但由於三維數據的特點,全卷積網絡並沒有廣泛應用到三維幾何特征的提取。卷積網絡用於3D數據時,標准輸入是一個四維的數據(x, y, z, f): 三個空間維度(x, y, z)和一個特征維度f。但大多數三維體素都是空的,導致這種表示占用內存較大。

在論文中,作者采用一種稀疏tensor來表示3D數據,采用Minkowski卷積代替傳統卷積,提出了ResUNet用於提取輸入點雲中每個點的特征,另外提出了新的loss用於全卷積度量學習。該網絡不需要數據預處理(提取簡單特征),也不需要patch的輸入,而且能夠產生具有SOTA區分性的高分辨率特征。作者在3DMatch數據集和KITTI數據集中驗證了FCGF(Fully Convolutional Geometric Features)的表示能力和提取特征的速度,實驗結果如Figure 1。

二、論文的方法

論文中的數據表示和卷積操作主要基於MinkowskiEngine,這里不詳細介紹,更多信息請查看MinkowskiEngine主頁。

2.1 點雲數據的稀疏表示

MinkowskiEngine把點雲表示成兩部分: 坐標矩陣和特征矩陣F。

2.2 稀疏點雲數據的卷積

2.3 網絡模型的架構

論文中的模型架構ResUNet是一種U-Net類的網絡架構,在編碼和解碼部分均包括殘差結構,在解碼和編碼之間通過skip連接來增強特征的表達能力,如Figure 2所示。

  • 殘差結構: Res = [(Conv + Bn + ReLU) + (Conv + Bn)], Output = ReLU(input + Res(input)),其中的Conv, Bn, ReLU操作均為稀疏數據的卷積,即Minkowski下的卷積操作。
  • 編碼: 包括N(Figure2中N=3)個(Conv + Bn + Res)結構,kernel size一般設置為3,第一個Conv中的stride=1,其他Conv的stride一般設置為2。
  • 解碼: 包括N(數量同編碼部分)個(transposed Conv + Bn + Res)結構,除了第一個transposed Conv結構外,其他transposed Conv結構的輸入均是encoder和decoder進行concat后的tensor。同時,最后一個transposed Conv中的kernel size為1,stride為1,其它的transposed Conv中的kernel size均為3,stride均為2。
  • 特征提取層: Conv(kernel size=1, stride=1),其后無Bn和ReLU結構。
  • 官方代碼: https://github.com/chrischoy/FCGF/blob/master/model/resunet.py

ResUNet架構中的MinkowskiEngine下的Conv, Bn, ReLU, transposed Conv換成常規的2D圖像下面的對應操作,就是一個很普通的網絡架構,關於MinkowskiEngine的一些基礎知識和代碼實踐歡迎參https://zhuanlan.zhihu.com/p/304117161。

2.4 損失函數

·Loss實現和采樣策略的源碼: https://github.com/chrischoy/FCGF/blob/master/lib/trainer.py

2.5 訓練

優化器是SGD,初始學習率0.1,指數衰減學習率(γ=0.99)。Batch size設置為4,訓練100個epoches。在訓練時對數據采用隨機scale(0.8 - 1.2)和隨機旋轉(0-360°)的增強。

三、論文的實驗

3.1 數據集

  • 3DMatch(內容較多,請查閱https://github.com/zhulf0804/3D-PointCloud/tree/master/3DMatch)
  • KITTI

3.2 評估指標

3.3 實驗結果

主要介紹3DMatch數據集上的實驗結果。

  • 精度和速度

作者在3DMatch測試集中比較了FCGF與傳統方法和深度學習方法的性能,如Table 1所示,第1列是方法名稱,第2列是FMR值(及其標准差),第3列是在旋轉的3DMatch數據集中的FMR值(及其標准差),第4列表示特征描述子的維度和提取特征的時間。從表中可以看到,FCGF提取特征的速度快,特征簡潔(只有32維),在3DMatch數據集和旋轉增強的3DMatch數據集均有最高的FMR。

在3DMatch測試集中Registration recall的比較如Table 5所示,FCGF在7個場景和平均情況下均達到了最高的Registration recall。

  • Ablation Study

作者測試了不同loss下的性能,實驗結果如Table3所示。由表格可以看到,對於contrastive Loss,normalized feature比非normalized feature要好,hardest-contrastive loss比常規(隨機的)contrastive loss結果要好,同時可以觀察到hardest-contrastive loss是所有loss中結果是最好的。對於triplet loss,normalized feature比非normalized feature要差,這個結論和contrastive loss中是相反的;hardest-triplet loss要比常規(隨機的)triplet-loss結果要好,但其容易導致collapse。綜合對比,hardest-contrastive loss在3DMatch數據集中是最好的。

  • 可視化

FCGF特征的t-SNE顯示如Figure 5所示。

四、總結

1.論文基於MinkowskiEngine實現了點雲的全卷積網絡,點雲和卷積等采用稀疏表示,優化了顯存。

2.作者提出了hardest-contrastive loss和hardest-triplet loss,利用點雲數據中的correspondences實現了特征的有效學習,並通過哈希的方式加快了生成二元組和三元組的速度。

3.不足: 基於MinkowskiEngine的神經網絡在量化點雲時會丟掉部分點雲信息。

本文僅做學術分享,如有侵權,請聯系刪文。

下載1

在「3D視覺工坊」公眾號后台回復:3D視覺,即可下載 3D視覺相關資料干貨,涉及相機標定、三維重建、立體視覺、SLAM、深度學習、點雲后處理、多視圖幾何等方向。

 

下載2

在「3D視覺工坊」公眾號后台回復:3D視覺github資源匯總,即可下載包括結構光、標定源碼、缺陷檢測源碼、深度估計與深度補全源碼、點雲處理相關源碼、立體匹配源碼、單目、雙目3D檢測、基於點雲的3D檢測、6D姿態估計源碼匯總等。

 

下載3

在「3D視覺工坊」公眾號后台回復:相機標定,即可下載獨家相機標定學習課件與視頻網址;后台回復:立體匹配,即可下載獨家立體匹配學習課件與視頻網址。

 

重磅!3DCVer-學術論文寫作投稿 交流群已成立掃碼添加小助手微信,可申請加入3D視覺工坊-學術論文寫作與投稿 微信交流群,旨在交流頂會、頂刊、SCI、EI等寫作與投稿事宜。
同時也可申請加入我們的細分方向交流群,目前主要有3D視覺CV&深度學習SLAM三維重建點雲后處理自動駕駛、CV入門、三維測量、VR/AR、3D人臉識別、醫療影像、缺陷檢測、行人重識別、目標跟蹤、視覺產品落地、視覺競賽、車牌識別、硬件選型、學術交流、求職交流、ORB-SLAM系列源碼交流、深度估計等微信群。一定要備注:研究方向+學校/公司+昵稱,例如:”3D視覺 + 上海交大 + 靜靜“。請按照格式備注,可快速被通過且邀請進群。原創投稿也請聯系。▲長按加微信群或投稿▲長按關注公眾號

3D視覺從入門到精通知識星球:針對3D視覺領域的知識點匯總、入門進階學習路線、最新paper分享、疑問解答四個方面進行深耕,更有各類大廠的算法工程人員進行技術指導。與此同時,星球將聯合知名企業發布3D視覺相關算法開發崗位以及項目對接信息,打造成集技術與就業為一體的鐵桿粉絲聚集區,近2000星球成員為創造更好的AI世界共同進步,知識星球入口:

學習3D視覺核心技術,掃描查看介紹,3天內無條件退款 圈里有高質量教程資料、可答疑解惑、助你高效解決問題覺得有用,麻煩給個贊和在看~  

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM