深度學習點雲語義分割:CVPR2019論文閱讀
Point Cloud Oversegmentation with Graph-Structured Deep Metric Learning
摘要
本文提出了一個新的超級學習框架,用於將三維點雲過度分割為超點。本文將此問題轉化為學習三維點的局部幾何和輻射測量的深度嵌入,從而使物體邊界呈現高對比度。嵌入計算使用輕量級神經網絡在點的局部鄰域上操作。最后,本文將點雲過分集描述為一個與學習嵌入相關的圖划分問題。這種新方法允許本文在密集的室內數據集(S3DIS)和稀疏的室外數據集(vKITTI)上設置一個新的尖端點雲過分集(顯著的邊緣)。本文的最佳解決方案需要比以前在S3DIS上發布的方法少五倍多的超級點才能達到類似的性能。此外,本文還展示了本文的框架可以用來改進基於超點的語義分割算法,同時也為這項工作創造了一個新的技術水平。
1. Introduction
此外,本文還定義了本文的點雲過分割的最終目標,即通過提供語義上純粹的重疊來輔助語義分割方法。本文證明,本文的方法可以與文獻[27]中的超點圖方法相結合,顯著地改進分割步驟,從而實現語義分割。
本文的貢獻如下:
•本文提出了第一個三維點雲過度分割的超級框架;
•本文引入了圖形結構的對比損失,它可以與本文的交叉划分加權策略相結合,在對象邊界生成具有高對比度的點嵌入;
•本文引入局部點嵌入器,這是一種輕量級架構,靈感來自[36],以緊湊的方式嵌入三維點的局部幾何和輻射測量;
•本文顯著改善了兩個已知且非常不同的數據集的點雲過度分段的最新技術;
•在結合超點圖語義分割方法的基礎上,本文的方法也提高了這項工作的技術水平。
2. Related work
超級像素/超級體素:
有大量關於將圖像過度分割為超級像素[44]和視頻過度分割為超級體素[51]的文獻。這些方法可以分為兩組:基於圖的方法利用像素的連接性[11,16,31]和基於簇的方法利用像素的相對位置[1,46,52,28]。最近,深度學習方法被成功地用於開發超混合過分割方法,無論是基於圖的方法[32],還是基於簇的方法[24]。
三維點雲的過度分段:
上述方法在圖像上表現良好,但依賴於像素的規則結構。三維點雲作為分布不規則的無序點集,需要特別關注。[4] 提出了二維局部變分圖方法[11]的三種擴展,並研究了構造圖、邊權和子圖合並的不同策略。[43]介紹了一種圖結構方法,該方法利用激光雷達傳感器的結構去除與邊界點相對應的邊緣。[34]提出了一種基於k-均值算法和八叉樹的聚類方法。但是,此方法對群集的初始化仍然敏感。[12] 利用RGBD圖像的視覺顯著性初始化聚類。[30]提出了一種不需要初始化的聚類方法,因此對激光雷達點雲的不規則密度不太敏感。同樣,[17]引入了一個無初始化的分割模型,該模型被描述為一個圖結構優化問題。所有這些方法都依賴於手工制作的幾何和/或色度特征。
三維點雲深度學習:
[36]中的工作開創了將深度學習用於三維點雲處理的先河。然而,迄今為止,這種用法僅用於語義分割[29、45、9、41、38、37、53、49]、對象檢測[56]或重建[15]。據本文所知,還沒有開發出利用基於深度學習的嵌入來生成超點的有監督的三維點過度分段技術。
度量學習:
度量學習旨在學習具有與給定任務相對應的屬性的數據點之間的相似函數[25]。在實際應用中,嵌入函數將每個數據點與調諧到給定目標的特征向量相關聯。這些目標可以與分類[13,40]或聚類[42,19]以及許多其他應用相關(參見[2]了解有用的分類)。在深入學習的背景下,這可以通過使用精心選擇的損失來實現,例如對比損失[8,5];三重損失[20]或其一些變體[48]。值得注意的是,度量學習最近被用於提高三維點語義分割任務的學習特征的質量[10]。然而,本文的任務是不同的,因為本文的嵌入是通過一個圖划分問題而不是分類來實現的。
3. Method
本文的目標是產生一個高質量的三維點雲過分割,以便它可以反過來用於基於超點的語義分割算法。這轉化為以下三個屬性:
(P1)對象純度:重疊點不能重疊在對象上,特別是當它們的語義不同時;
(P2)邊界回憶:重疊點之間的界面必須與物體之間的邊界重合;
(P3)規律性:重疊點的形狀和輪廓必須簡單。
本文的方法可以分為兩個步驟:在第3.1節中,本文提出了局部雲嵌入器,一個簡單的神經網絡,它將每個點與一個緊湊的嵌入相關聯,該嵌入器捕獲其局部幾何和輻射測量。在第3.2節中,本文描述了如何使用基於圖或基於簇的過分割算法從該嵌入計算點雲過分割。
本文的目標是將一個緊湊的維度嵌入ei關聯到每個點,該嵌入ei描述其點特征(位置、顏色等)及其局部鄰域的幾何和輻射測量。如[47]所建議,嵌入被限制在m單位球面Sm內,以防止在訓練階段崩潰,並使它們彼此之間的距離標准化。為此,本文引入了本地點嵌入器(LPE),這是一個受PointNet[36]啟發的輕量級網絡。
然而,與PointNet不同,LPE並不試圖從整個輸入點雲中提取信息,而是基於純本地信息對每個點進行編碼。在這里,本文描述網絡的不同單元。空間變換:該單元采用目標點pi及其局部k鄰域pi的位置,如圖2所示。它規范化了圓周率周圍鄰域的坐標,使得點位置的標准偏差等於1(3)。然后,利用由小點網絡PTN(4)計算的2×2旋轉矩陣,將該鄰域繞z軸旋轉。如[23]所倡導的,這些步驟旨在標准化每個點的鄰域雲的位置。這有助於下一個網絡學習位置分布。
如前所述,語義純度屬性(P1)是超點的第一個質量。曾經可以想象,把估計(9)解的語義純度的度量作為損失函數。然而,GMP是一個非連續的非凸優化問題,在圖上計算連通分量是不可微的。這使得直接針對分區屬性進行優化非常困難,甚至是不可能的。相反,本文注意到,如果實現了border recall屬性(P2)(即,超級點和對象共享相同的邊界),那么(P1)隨之發生。因此,本文提出了一種稱為圖結構對比損失的替代損失,重點在於正確檢測對象之間的邊界。為此,本文定義了入口一組內部邊緣為 同一對象內的點。
本文使用了一種改進版的“0-cut追蹤算法”[26],主要有兩個不同點:
•為了防止在高對比度區域產生許多小的超點,本文貪婪地合並(9)中定義的目標能量,只要它們小於給定的閾值;
•本文從[26]中試探性地改進了前進步驟(8),使得正則化強度沿着迭代幾何地增加了一個因子(0.7)。
這有助於提高檢索到的較低的optima的質量,從而提高過度分段的質量。 為了限制重疊點的大小,本文將它們的三維坐標嵌入(9)乘以參數αspatial,如[1]所示。 這決定了超級點可以達到的最大大小。在所有的實驗中,本文把m的嵌入維數設為4。本文為LPE選擇了一個光架構,參數小於15000。附錄中詳細說明了每個數據集的確切網絡配置。
4. Numerical Experiments
本文在兩個不同性質的數據集上評估本文的方法。第一個是S3DIS[3],由辦公室環境中房間的密集室內掃描組成。第二個是vKITTI[9],一個模擬稀疏激光雷達采集的室外城市場景數據集。注意,只有S3DIS有單獨的對象注釋。本文將vKITTI的對象看作是鄰接圖G中語義標簽的連通成分,對於vKITTI,本文考慮了算法在有無顏色信息的情況下的性能。這兩個數據集都是大規模的(S3DIS接近6億點,vKITTI接近1500萬點)。本文使用規則的體素網格對它們進行子采樣(對於S3DIS為3cm寬,對於vKITTI為5cm寬)。在每個體素中,本文平均包含點的位置和顏色。這樣可以減少計算時間和內存負載。
5. Conclusions
在本文中,本文提出了第一個超級三維點雲過分割框架。使用一個簡單的點 嵌入網絡和一個新的圖形結構損失函數,本文能夠實現顯著的改善相比,最先進的點雲過度分段。當與基於超點的語義分割方法相結合時,本文的方法也為語義分割的研究開辟了一個新的領域。
視頻插圖可在https://youtu.be/bKxU03tjLJ4上獲取。源代碼將在superpointgraph repository2的更新中提供給社區和經過培訓的網絡。今后的工作將着重於改進廣義最小分塊問題的求解方法,以更好地處理球有界變量,提高其計算性能。