論文筆記:(TOG2019)DGCNN : Dynamic Graph CNN for Learning on Point Clouds



Dynamic Graph CNN for Learning on Point Clouds

論文地址:https://arxiv.org/abs/1801.07829
代碼:https://github.com/WangYueFt/dgcnn
別人復現的(pytorch版):https://github.com/AnTao97/dgcnn.pytorch

圖1所示 利用該神經網絡進行點雲分割。下圖:神經網絡結構示意圖。上圖:網絡各層生成的特征空間結構,特征上的顏色表示紅點到所有剩余點的距離 (最左邊一列為輸入;中間三層為處理的結果;右邊的圖顯示了分割結果)。觀察更深層次的特征空間結構如何捕獲語義上相似的結構,如機翼、機身或渦輪機,盡管它們在原始輸入空間中有很大的距離。

個人見解:

  • 本篇文章認為 pointnet++ 屬於靜態圖卷積:pointnet++ 根據點對的歐氏距離構建圖,然后在每一層進行圖粗化操作。使用最遠點采樣選取點作為下一層的輸入。這樣使得每一層的圖不斷減小,但是圖的結構沒有改變(靜態圖或者固定圖)。
  • DGCNN 的動態圖卷積,是因為 在特征空間取k近鄰,每層計算的特征都不相同,也就是說圖的連接關系由網絡自己學習,因此相當於每一層的圖都具有不同的頂點,edgconv的感受野最大可以達到整個點雲的直徑。
  • 本文開門見山給出網絡結構圖,以及non-local的思想,簡單來說就是相似特征不一定是在local局域內。
  • 實驗證明,特征空間中的距離可以更好的拉近相同語義點的距離。這樣不僅學習到了點雲的幾何信息,而且學習如何對點雲進行分組。

摘要

  點雲提供了一種靈活的幾何表示,適用於計算機圖形學中無數的應用;它們還包括大多數3D數據采集設備的原始輸出。
  盡管在圖形和視覺領域,人工設計的點雲特征已經被提出很久了,然而,最近卷積神經網絡(CNNs)在圖像分析方面的壓倒性成功表明,將CNN的見解應用到點雲世界的價值。
  點雲本身缺乏拓撲信息,所以設計模型去獲得拓撲結構信息可以增強點雲的表示能力。為此,我們提出了一種新的神經網絡模塊——Edge-Conv,其適用於基於cnn的點雲
高級任務,包括分類和分割。
  EdgeConv是可以作用在網絡的每一層中的動態計算的圖。
  它是可微分的,可以插入到現有的架構中。
  與現有的運行在外部空間或單獨處理每個點的模塊相比,EdgeConv具有幾個吸引人的特性:它包含了局部鄰域信息;它可以堆疊應用,學習全局形狀屬性;
  而在多層系統中,特征空間的親和度在原始嵌入中可能 跨越很長的距離捕獲語義特征
  我們在標准基准測試上展示了模型的性能,包括ModelNet40、ShapeNetPart和S3DIS。

一、引言

  點雲,或二維或三維分散的點集合,可以說是最簡單的形狀表示;它們還包括3D傳感技術的輸出,包括激光雷達掃描儀和立體重建。由於效率考量或這些技術在噪聲存在時的不穩定性,隨着快速三維點雲采集技術的出現,最近用於圖形和視覺的技術經常直接處理點雲,繞過昂貴的網格重建或去噪。最近的點雲處理和分析應用包括室內導航[Zhu et al. 2017]、自動駕駛汽車[Liang et al. 2018;Qi et al 2017a;Wang et al 2018b],機器人[Rusu et al. 2008b],形狀合成和建模[Golovinskiy et al. 2009;Guerrero等人2018]。

  這些現代應用程序需要對點雲進行高級處理。最近的算法不是識別明顯的幾何特征,比如角和邊,而是搜索語義線索。這些特征並不完全適合計算或微分幾何框架,通常需要基於學習的方法,通過對已標記或未標記數據集的統計分析得出相關信息。
本文主要考慮點雲的分類和分割,這是點雲處理中的兩個模型任務。解決這些問題的傳統方法使用手工特征來捕獲點雲的幾何屬性[Lu et al.2014; Rusu et al. 2009, 2008a]。最近,深度神經網絡在圖像處理方面的成功推動了一種數據驅動的方法來學習點雲上的特征。深度點雲處理和分析方法發展迅速,在各種任務中優於傳統方法[Chang et al. 2015]。

  然而,將深度學習應用於點雲數據遠非易事。最關鍵的是,標准的深度神經網絡模型要求輸入數據結構規則,而點雲本質上是不規則的: 點位置在空間中連續分布,其順序的任何排列都不會改變空間分布。使用深度學習模型處理點雲數據的一種常見方法是首先將原始點雲數據轉換為體積表示,即3D網格[Maturana and Scherer 2015; Wu et al. 2015]。然而,這種方法通常會引入量化誤差和過度的內存使用,使得獲取高分辨率或細粒度的特性變得困難。

  最先進的深度神經網絡是專門為處理不規則點雲而設計的,直接處理原始點雲數據,而不是傳遞給中間的規則表示。這種方法是PointNet [Qi et al. 2017b]首創的,通過對每個點獨立操作,然后使用對稱函數來積累特征,從而實現點的排列不變性。PointNet的各種擴展都考慮點的鄰域,而不是單獨作用於每個點[Qi et al. 2017c; Shen et al. 2017];這使得網絡可以利用局部特征,提高基本模型的性能。這些技術在很大程度上獨立處理局部區域的點以保持排列不變性。然而, (要解決的問題)這種獨立性忽略了點之間的幾何關系,呈現了一個無法捕捉局部特征的基本限制。

  為了解決這些缺點,我們提出了一種新的簡單操作,稱為EdgeConv,它捕獲局部幾何結構的同時保持排列不變性。EdgeConv並沒有直接從它們的嵌入中生成點特征,而是 生成描述點與其相鄰點之間關系的邊緣特征。EdgeConv被設計成對鄰居的順序不變,因此是排列不變的。由於 EdgeConv顯式地構造了一個局部圖並學習了邊緣的嵌入,因此該模型能夠同時在歐氏空間和語義空間中對點進行分組。

  EdgeConv易於實現並集成到現有的深度學習模型中,以提高其性能。在我們的實驗中,我們將EdgeConv集成到PointNet的基本版本中,而不使用任何特性轉換。我們展示了網絡在幾個數據集上達到最先進的性能,最值得注意的是在用於分類和分割的ModelNet40和S3DIS的結果。

關鍵的貢獻 我們將工作的主要貢獻總結如下:

  • 我們提出了一種從點雲學習的新操作,EdgeConv,更好地捕捉點雲的局部幾何特征,同時保持排列不變性。
  • 我們展示了該模型可以通過動態更新一層到一層的關系圖來學習語義分組點 (點雲中形狀相似的部分,在特征空間中的距離較小)
  • 我們演示了EdgeConv可以集成到多個現有模型中進行點雲處理。
  • 我們對EdgeConv進行了廣泛的分析和測試,並證明它在基准數據集上達到了最先進的性能。
  • 我們發布我們的代碼,以促進可重現性和未來的研究。
    補充:(缺點) EdgeConv考慮了點的坐標與領域點的距離,忽視了相鄰點之間的向量方向(局部鄰域圖是無向圖,中心點與鄰域點誰指向誰並不知道),最終還是損失了一部分局部幾何信息。
    總結:當我們提出一個新的點雲特征描述子的時候,我們可以從一下方面總結我們的創新點:
    (1) 我們提出了某某某算子,該算子可以實現置換不變性、平移不變性、旋轉不變性,同時可以捕獲局部幾何信息。
    (2) 該算子可以通過堆疊或者循環使用,提取全局形狀信息。
    (3) 該算子可以集成到現有的模型中進行點雲處理。
    (4) 在標准數據集上實現了SOA效果。

二、相關工作

   手工制作的特征 幾何數據處理和分析中的各種任務——包括分割、分類和匹配——需要一些形狀之間的局部相似概念。傳統上,這種相似性是通過構造捕獲局部幾何結構的特征描述符來建立的。計算機視覺和圖形學領域的無數論文提出了適合於不同問題和數據結構的點雲的局部特征描述符。對手工設計的點特性的全面概述超出了本文的范圍,但是我們建議讀者參考[Biasotti et al. 2016; Guo et al. 2014;Van Kaick et al. 2011]。

  廣義地說,可以分為外在描述符和內在描述符。外部描述子通常是從三維空間中形狀的坐標推導出來的,包括形狀上下文(shape context) [Belongie et al. 2001]、自旋圖像(spin images) [Johnson and Hebert 1999],積分特征[Manay et al. 2006],基於距離的描述符[Ling and Jacobs 2007],點特征直方圖[Rusu et al. 2009, 2008a],規范化直方圖[Tombari et al. 2011],等等。內在描述符將三維形狀視為一個流形,其度量結構離散為一個網格或圖; 用度量表示的量對等距變形是不變的。這類的代表包括頻譜描述符如global point signatures [Rustamov 2007], the heat and wave kernel signatures [Aubry et al.2011;Sun et al.2009],以及變體(Bronstein and Kokkinos 2010)。最近,有幾種方法圍繞標准描述符包裝機器學習方案[Guoet et al. 2014;Shah et al. 2013]。

  幾何的深度學習 繼卷積神經網絡(CNNs)在視覺方面的突破性成果之后[Krizhevsky et al. 2012;LeCun et al. 1989],人們對將這種方法應用於幾何數據有着濃厚的興趣。與圖像不同,幾何學通常沒有底層網格,需要新的構建塊取代卷積和池化或適應網格結構。

  作為克服這個問題的一種簡單方法,基於視圖的[Su et al. 2015;Wei et al. 2016]和體積表征[Klokov and Lempitsky2017; Maturana and Scherer 2015; Tatarchenko et al. 2017; Wu et al. 2015]-或他們的組合[Qi et al. 2016]-“放置”幾何數據到網格上。最近,PointNet [Qi et al. 2017b,c]舉例說明了廣泛的一類基於非歐氏數據(圖形和流形)的深度學習架構,稱為幾何深度學習[Bronstein et al. 2017]。這些可追溯到在圖上構建神經網絡的早期方法[Scarselli et al. 2009],最近改進了的門控循環單元[Li et al. 2016]和神經消息傳遞[Gilmer et al. 2017]。[ Bruna et al. 2013] 和 [Henaff et al. 2015]通過拉普拉斯特征向量對圖進行廣義卷積[Shuman et al. 2013]。在后續的工作中,使用多項式和rational spectral filters緩解了這種基礎方法的計算缺陷[Defferrard et al.2016;Kipf and Welling 2017;Monti et al. 2017b, 2018],其中rational spectral filters [Levie et al.2017]避免拉普拉斯特征分解並保證定位。非歐氏卷積的另一種定義是使用空間濾波器而不是頻譜濾波器。測地線CNN (GCNN)是一種基於網格的深度CNN,它使用局部內在參數化將patch的概念一般化[Masci et al. 2015]。與頻譜方法相比,它的關鍵優點是更好的泛化,以及構造方向濾波器的簡單方法。后續工作提出了使用各向異性擴散的不同局部制圖技術[Boscaini et al. 2016]或高斯混合模型[Monti et al. 2017a; Veličković et al. 2017]。在[Halimi et al. 2018; Litany et al. 2017b]中,將可微函數映射層[Ovsjanikov et al. 2012]合並到幾何深度神經網絡中,可以對非剛性形狀之間的對應關系進行內在的結構化預測。

  幾何深度學習的最后一類的方法試圖拉回一個卷積操作通過把形狀嵌入到一個平移不變性的結構域,例如球形[Sinha et al. 2016],環面[Maron et al. 2017],飛機[Ezuz et al . 2017],稀疏網絡格子(Su et al . 2018年)或樣條(Fey et al . 2018年)。
  最后,我們應該提到幾何生成模型,它試圖概括模型,如自動編碼器,變分自動編碼器(VAE) [Kingma andWelling 2013],生成式對抗網絡(GAN) [Goodfellow et al. 2014]到非歐幾里得設置。這兩種設置之間的一個基本區別是,輸入和輸出頂點之間缺乏規范順序,因此需要解決輸入-輸出對應問題。在三維網格生成中,通常假設網格是給定的,其頂點是正序的;因此,生成問題僅僅是決定網格頂點的嵌入。[Kostrikovet al. 2017]為此任務提出了基於外部狄拉克算子的SurfaceNets。[Litany et al. 2017a]介紹了內部VAE網格並將其應用於形狀補全;[Ranjan et al. 2018]等人使用了類似的架構用於3D人臉分析。對於點雲,已經提出了多種生成架構[Fan et al. 2017;Li et al. 2018b;Yang et al. 2018]。

三、我們的方法

  我們提出了一種受PointNet和卷積運算啟發的方法。然而,與像PointNet那樣處理單個點不同,我們利用了局部幾何結構,構造了一個局部鄰域圖,並在連接相鄰點對的邊上應用類似卷積的操作,這是圖神經網絡的精神。我們在下面說明,這樣的操作,稱為邊緣卷積(EdgeConv),具有介於平移不變性和非局域性之間的性質。

  與CNN圖不同,我們的圖不是固定的,而是在網絡的每一層之后動態更新的。也就是說,一個點的k近鄰集合在網絡中逐層變化,由嵌入序列計算。特征空間的鄰近性與輸入的鄰近性不同,導致信息在整個點雲中的非局部擴散。作為與現有工作的聯系,非局域神經網絡[Wang et al. 2018a]在視頻識別領域探索了類似的思路以及[Xie et al. 2018]的后續工作,他提出利用非局部的塊來對特征圖進行去噪,以抵御對抗性攻擊。

3.1 邊緣卷積Edge Convolution

  考慮一個具有n個點的F維點雲,表示為X = {x1,…, xn}⊆RF。在最簡單的設置中F = 3,每個點包含三維坐標xi = (xi,yi, zi);還可以包含表示顏色、表面法線等的額外坐標。在深度神經網絡體系結構中,每一個后續層都對前一層的輸出進行操作,所以更一般的維數F表示給定層的特征維數。

  我們計算一個表示局部點雲結構的有向圖G = (V, E),其中V ={1,…,n}和E⊆V×V分別為頂點和邊。在最簡單的情況下,我們構造G為X在RF空間中的k-近鄰(k-NN)圖。圖包含自循環,這意味着每個節點也指向自己。我們將邊緣特征定義為eij = hΘ(xi, xj),其中hΘ:RF×RF→RF′是帶有一組可學習參數的非線性函數。

  最后,我們通過在邊緣特征上應用通道對稱聚合操作□(例如Σ或max)來定義EdgeConv操作,邊緣特征與該點向每個頂點發出的所有邊相關聯的。因此,EdgeConv在第i個頂點的輸出為

  與圖像上的卷積類比,我們將xi作為中心像素,{xj: (i, j)∈E}作為圍繞中心像素的一個patch(如圖2)。總體而言,給定一個有n個點的F維點雲, EdgeConv生成具有相同點數的F '維點雲。
圖2所示。左圖: 從點對(xi,xj)(下)計算邊緣特征eij(上)。在這個例子中,hΘ()是使用一個全連接層實現的,並且可學習的參數是它的相關權重。右:EdgeConv操作。EdgeConv的輸出是通過聚合與每個連接頂點發出的所有邊緣相關的邊緣特征來計算的。

h的選擇和□

  邊緣函數和聚合操作的選擇對EdgeConv的性能有至關重要的影響。例如,當x1,…, xn表示規則網格上的圖像像素,圖G的連通度表示每個像素周圍固定大小的patch,選擇θm•xj作為邊緣函數,sum作為匯聚操作,得到標准卷積:
  這里,Θ=(θ1,…,θM)編碼M個不同濾波器的權值。每個θm與x具有相同的維數,•表示歐幾里得內積。

  h的第二個選擇是

  只編碼全局形狀信息而不考慮局部鄰域結構。這種類型的操作在PointNet中使用,因此可以將其視為EdgeConv的一個特殊情況。   h的第三個選擇是 Atzmon等人[2018]采用的
  g是高斯核,μ計算歐幾里得空間中的兩兩距離。

  h的第四個選擇是

  這種方法只對局部信息進行編碼,將形狀視為小塊的集合,並失去全局結構。

  最后,本文采用的第五種選擇是非對稱邊緣函數

  這顯式地結合了全局形狀結構(由patch centers xi的坐標捕獲)和局部鄰域信息(由xj−xi捕獲)。特別地,我們定義我們的操作符為:
  這個操作可以用共享的MLP實現,然后采取

3.2動態圖更新

  我們的實驗表明,利用每一層產生的特征空間中最近鄰重新計算圖是有益的。這是我們的方法與處理固定輸入圖的 的一個重要區別。這樣的動態圖更新就是我們的架構命名為動態圖CNN (DGCNN)的原因。使用動態圖更新,感受野與點雲范圍一樣大,盡管是稀疏的。

3.3 性質

置換不變性 考慮一個層的輸出

  和一個排列算符π。輸出x'i對輸入xj的排列不變,因為max是一個對稱函數(其他對稱函數也適用)。聚合點特征的全局最大池化操作符也是排列不變的。

平移不變性 我們的操作符有一個“部分”平移不變性屬性,因為我們選擇的邊緣函數(7)顯式地暴露了函數中與平移相關的部分,並且可以選擇性地禁用該部分。考慮一個應用於xj和xi的平移;我們可以證明,當平移T時,部分邊緣特征保留了下來,特別是對於
平移后的點雲我們有

  如果我們只考慮xj−xi,使其中的θm = 0,那么該算子對平移是完全不變的。然而,在這種情況下,該模型簡化為基於一組無序的patch來識別一個對象,忽略了patch的位置和方向。該模型以xj−xi和xi為輸入,在保持全局形狀信息的同時考慮了patch的局部幾何形狀。

3.4 與現有方法比較

  DGCNN與兩類方法有關:PointNet和graph cnn,我們展示了它們是我們方法的特定設置。我們在表1中總結了不同的方法。

  PointNet是我們方法中k = 1的特例,生成一個邊設為空的圖E =∅。PointNet中使用的邊函數是hΘ(xi, xj) = hΘ(xi),它考慮的是全局幾何而不是局部幾何。PointNet++試圖在局部區域應用PointNet解釋局部結構。在我們的說法中,PointNet++首先根據點之間的歐幾里得距離構造圖,並在每一層應用一個圖粗化操作。對於每一層,使用最遠點采樣(FPS)選擇一些點;只有選中的點被保留,其他點在這一層之后被直接丟棄。通過這種方式,在對每一層進行操作后,圖形變得更小。相比DGCNN, PointNet++使用點輸入坐標計算成對距離,因此它們的圖形在訓練期間是固定的。PointNet++使用的邊函數是hΘ(xi, xj) = hΘ(xj),聚合操作也是max。

  在GCNN中, MoNet [Monti et al. 2017a], ECC [Simonovskyand Komodakis 2017], Graph Attention Networks [Veličković et al.2017], 和 the concurrent work [Atzmon et al. 2018]是最相關的方法。它們的共同特點是圖上的局部patch的概念,在局部patch中可以定義卷積類型的操作。

  具體來說,Monti et.al [2017a]使用圖結構計算了一個局部“偽坐標系”u,其中鄰域頂點在該坐標系下重新表示;卷積被定義為M-component混合高斯

  其中,g為高斯核,⊙為逐對點積( **阿達馬Hadamard** )積。{w1, . . . .wN }編碼高斯的可學習參數(均值和協方差),{θ1,......,θM}是可學習的濾波器系數。(11)是我們一般操作(1)的一個實例,其特定的邊緣函數為
  □=Σ。同樣,它們的圖結構是固定的,並且u是基於節點的度構造的。

補充:

  [Atzmon et al. 2018]可以看作是[Monti et al. 2017a]的一個特例,其中與g是預定義的高斯函數。去除可學習的參數(w1,. . . .,wN)從點雲構造稠密圖,我們有
  其中u是歐氏空間中xi和xj的成對距離。

  當MoNet和其他圖網絡假設一個給定的固定圖,在這個固定圖上應用類似卷積的操作時,據我們所知,我們的方法是第一個在可學習參數更新時,圖從一層變化到另一層,甚至在訓練期間相同的輸入上變化的方法。通過這種方法,我們的模型不僅學習了如何提取局部幾何特征,還學習了如何對點雲中的點進行分組。圖4展示了不同特征空間中的距離,舉例說明了原始嵌入中更深層次的距離攜帶着較長距離的語義信息。

圖4所示。在我們的形狀分類神經網絡體系結構的不同階段產生的特征空間的結構,可視化為紅點到其余點之間的距離。對於每個集合,左:輸入R3空間中的歐氏距離;中間:點雲變換階段后的距離,相當於形狀的全局變換; 右:最后一層特征空間中的距離。觀察在更深層次的特征空間中,語義上相似的結構(如書架的架子或桌子的腿)是如何緊密結合在一起的,盡管它們在原始空間中是遙遠的。

四、評估

  在本節中,我們將評估使用EdgeConv為不同任務構建的模型:分類、部件分割和語義分割。我們還將實驗結果可視化,以說明與以往工作的關鍵差異。

4.1 分類

數據 我們在ModelNet40 [Wu et al. 2015]分類任務中評估我們的模型,包括預測以前未見過的形狀的類別。數據集包含來自40個類別的12311個網格CAD模型。9,843個模型用於訓練和2,468個模型用於測試。我們遵循Qi等人[2017b]的實驗設置。對於每個模型,從網格面均勻采樣1024個點;點雲被重新縮放以適應單位球體。只使用采樣點的(x,y, z)坐標,原始網格被丟棄。在訓練過程中,我們通過隨機縮放目標和擾動目標和點的位置來增加數據。

結構 分類任務所使用的網絡架構如圖3所示(頂部分支不含空間變壓器網絡)。我們使用四個EdgeConv層來提取幾何特征。四個EdgeConv層使用三個共享的全連接層(64、64、128、256)。我們根據每個EdgeConv層的特征重新計算圖,並為下一層使用新的圖。對於所有EdgeConv層,最近鄰的數目k是20(對於表2中的最后一行,k是40)。Skip-connect包括提取多尺度特征和一個共享的完全連接層(1024)來聚合多尺度特征,其中我們將之前層的特征連接起來,得到64+64+128+256=512維點雲。然后,采用全局最大/sum pooling方法獲得點雲的全局特征,得到兩個全連接層(512,256)用於變換全局特征。在最后兩個全連接層中使用Dropout(保持概率為0.5)。所有層包括LeakyReLU和批歸一化。使用驗證集選擇數字k。我們將訓練數據分割為80%用於訓練,20%用於驗證,以搜索最優k。選擇k后,對整個訓練數據進行再訓練,對測試數據進行評價。其他超參數的選擇也是類似的。

訓練 我們使用學習速率為0.1的SGD,使用余弦退火將學習速率降低到0.001 [Loshchilov and Hutter 2017]。批量規范化的動量是0.9,我們不使用批量規范化衰減。批大小為32,動量為0.9。

結果 表2顯示了分類任務的結果。我們的模型在這個數據集上取得了最好的結果。我們使用固定圖的基線(由輸入點雲的鄰近度決定)比pointnet++好1.0%。在該數據集上采用動態圖重計算的改進版本取得了較好的效果。所有實驗都使用除最后一行外包含1024個點的點雲進行。我們用2048點進一步測試模型。2048點使用的k是40,以保持相同的密度。注意,PCNN [Atzmon et al. 2018]使用了額外的增強技術,比如在訓練和測試期間從1200個點中隨機抽取1024個點。

4.2 模型復雜度

  我們使用ModelNet40 [Wu et al. 2015]分類實驗來比較我們的模型與之前的先進水平的復雜性。表3顯示,我們的模型實現了模型復雜性(參數數量)和計算復雜性之間的最佳折衷(以正向通過時間測量),由此得到的分類精度。

  我們使用固定k-NN圖的基線模型比之前的最先進的PointNet++准確率高1.0%,同時快7倍。我們的模型的一個更先進的版本包括一個動態更新的圖計算,其性能分別超過了PointNet++、PCNN 2.2%和0.6%,而我們的模型則是更高效的。本節中,每次實驗的點的個數都是1024。

4.3 在ModelNet40上的更多實驗

  我們還在ModelNet40數據集上對模型的各種設置進行了實驗[Wu等人2015]。特別地,我們分析了不同距離度量、xi−xj的明確使用以及更多點的有效性。

  表4顯示了結果。“Centralization”是指將xi和xi−xj連接起來作為邊緣特征,而不是將xi和xj連接起來。“Dynamic graph recomputation”表示我們重構圖而不是使用固定的圖。通過使用xi和xi−xj的連接顯式地集中每個補丁可以提高大約0.5%的整體精度。通過動態更新圖,大約有0.7%的改進,圖4也表明模型可以提取語義上有意義的特征。使用更多的點進一步提高了整體精度0.6

  我們還用不同數量的k個最近鄰進行實驗,如表5所示。對於所有實驗,點數仍然是1024。雖然我們沒有對所有可能的k進行詳盡的試驗,但我們發現,當k較大時,性能會下降。 這證實了我們的假設,對於一定密度,當k較大時,歐幾里得距離無法近似測地線距離,破壞了每個patch的幾何形狀。
  我們進一步評估我們的模型相對於點雲密度的穩健性(訓練時用的1024個點與k = 20)。我們模擬測試過程中隨機輸入點掉落的環境。從圖5可以看出,即使剔除了一半的點,模型仍然可以得到合理的結果。然而,當點雲數量低於512點時,表現就會急劇下降。

4.4 部件分割

數據 我們擴展了我們的EdgeConv模型架構,用於ShapeNet部件數據集上的部件分割任務[Yi et al. 2016]。對於這個任務,點雲集合中的每個點都被分類到幾個預定義的部件類別標簽中的一個。數據集包含16,881個來自16個對象類別的3D形狀,總共注釋了50個部分。從每個訓練形狀中采樣2048個點,大多數采樣點集合的標記少於6個部分。在我們的實驗中,我們遵循Chang等人[2015]的官方訓練/驗證/測試分割方案。

架構 網絡架構如圖3所示(分支)。經過空間變壓器網絡,三個Conv層被使用。一個共享的全連接層(1024)聚合來自前一層的信息。Skip-connect用於將所有EdgeConv輸出包括為局部特征描述符。最后,利用三個共享的全連接層(256,256,128)對點特征進行變換。批處理規范、dropout和ReLU以類似的方式包括在我們的分類網絡中。

訓練 我們采用與分類任務相同的訓練設置。在兩台NVIDIA TITAN X gpu上進一步實現了分布式訓練方案,以保持訓練批量的大小。

結果 我們使用點上的交集和並集之比(IoU)來評估我們的模型,並與其他基准進行比較。我們遵循與PointNet相同的評估方案:一個形狀的IoU是通過將該形狀中發生的不同部分的IoU進行平均來計算的,而一個類別的IoU是通過將屬於該類別的所有形狀的IoU進行平均來得到的。平均IoU (mIoU)的計算方法是將所有測試形狀的IoU平均起來。我們將我們的結果與PointNet [Qi et al. 2017b]、PointNet++ [Qi et al. 2017c]、Kd-Net [Klokov and Lempitsky 2017]、LocalFeatureNet進行比較[Shen et al. 2017], PCNN [Atzmon et al. 2018], PointCNN [Li et al. 2018a]。評價結果如表6所示。我們還在圖7中可視化地比較了我們的模型和PointNet的結果。圖6顯示了更多的示例。

點雲間距離 接下來,我們將探索使用我們的特性捕獲的不同點雲之間的關系。圖8所示,我們從一個源點雲中取一個紅點,計算其在特征空間中與同一類別其他點雲中的點的距離。一個有趣的發現是,盡管點來自不同的來源,但如果它們來自語義相似的部分,它們就會彼此接近。在本實驗中我們的分割模型的第三層之后,我們對特征進行評估。

對不完整數據進行分割 我們的模型對部分數據具有魯棒性。我們模擬形狀的一部分以不同的百分比從六個側面(頂部、底部、右側、左側、前部和后部)中丟失。結果如圖9所示。在左側,示出平均IOU與“保留比率”之比。在右邊,飛機模型的結果是可視化的。

4.5 室內場景分割

數據 我們評估我們的模型在斯坦福大尺度三維室內空間數據集(S3DIS) [Armeni et al.2016]用於語義場景分割任務。該數據集包含了6個室內區域的3D掃描點雲,共272個房間。每個點都屬於13個語義范疇之一。木板、書櫃、椅子、天花板和beam-plus雜物。我們遵循與Qi等人[2017b]相同的設置,其中每個房間被分割成面積為1m×1m的塊體,每個點表示為一個9D矢量(XYZ、RGB和歸一化空間坐標)。在訓練過程中,每個塊對4,096個點進行采樣,所有點都用於測試。我們也對6個區域使用相同的6倍交叉驗證,並報告平均評價結果。

  本任務所使用的模型與部件分割模型相似,不同之處在於每個輸入點都生成了語義對象類的概率分布,這里沒有使用分類向量。我們將我們的模型與PointNet [Qi等人2017b]和PointNet基線(PointNet baseline)進行比較,使用額外的點特征(局部點密度、局部曲率和法線)來構建手工制作的特征,然后反饋給MLP分類器。我們進一步將我們的工作與[Engelmann et al. 2017]和PointCNN [Li et al. 2018a]進行比較。Engelmann等人[2017]提出了網絡架構,以擴大3D場景的接受域。在他們的工作中提出了兩種不同的方法:MS+CU處理具有合並單元的多尺度塊特征; G+RCU為具有循環合並單元的網塊。我們在表7中報告了評估結果,並在圖10中直觀地比較了PointNet和我們模型的結果。

五、討論

  在本文中,我們提出了一種新的點雲學習算子,並展示了它在各種任務上的性能。我們的模型表明,局部幾何特征對3D識別任務很重要,即使引入了深度學習中的機器。

  雖然我們的架構可以很容易地集成到現有的基於點雲的圖、學習和視覺等方法中,但我們的實驗也為未來的研究和擴展指明了幾種途徑。我們實現的一些細節可以修改和/或重新設計,以提高效率或可伸縮性,例如,納入快速數據結構,而不是計算成對距離來評估k-最近鄰查詢。我們還可以考慮較大的點組之間的高階關系,而不是將它們配對考慮。另一個可能的擴展是是設計一個非共享的變壓器網絡,工作在每個局部補丁不同,增加了我們模型的靈活性。

  我們的實驗表明,內在特征同樣可以是有價值,甚至比點坐標更有價值;開發一個新的、有價值的、在理論上講得通的實際框架,以平衡內在的和有意義的在學習過程中的外在考慮因素將需要從幾何處理的理論和實踐中得到啟示。鑒於此。我們將考慮將我們的技術應用於更抽象的領域。來自文檔檢索等應用的點雲和圖像處理,而不是三維幾何;超越拓寬我們的技術的適用性,這些實驗將提供洞察幾何學在抽象數據處理中的作用。

參考:https://zhuanlan.zhihu.com/p/267895014?utm_source=qq
https://blog.csdn.net/qq_39426225/article/details/101980690


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM