Abstract
- 基本任務:大規模點雲上的語義分割
- 一方面,為了減少鄰近點的歧義,通過充分利用
雙邊結構
中的幾何和語義特征來增加它們的局部上下文。 - 另一方面,全面地從
多個分辨率
中提取點的存在性,並在點級按照自適應融合
方法表示特征圖,以實現精確的語義分割。
Introduction
- 文章重點:研究大規模復雜點雲的語義分割任務,以識別真實點雲場景中每個點的語義標簽。
- 基於投影的(AlaxNet)、基於離散化的(Voxels or grids)和基於點的(PointNet)CNN模型由於一些共同的問題,對於實際應用來說並不是最佳的,首先它們需要幾個耗時的/后處理步驟,其次,生成的中間表示可能會部分地失去周圍環境的背景。
- 現有的工作有三個主要的缺點:
Ambiguity in close points
,Redundant features
和Inadequate global representations
。 - Ambiguity in close points:閉點歧義。比如在領域構建過程中,領域之間的噪點和重疊是難以避免的,往往會產生歧義。文中通過擴大局部環境,並引入一個穩健的聚合過程來細化增強的局部上下文,並為點的表示提取有用的鄰近信息來減輕可能的影響。
- Redundant features:特征冗余。許多作品多次結合相似的特征來增強模型的感知,這一過程造成了冗余,並增加了模型處理大規模點雲的復雜性。文中將輸入信息表征為幾何和語義線索,然后通過雙邊結構(幾何與特征)充分利用它們。
- Inadequate global representations:不充分的全局表達。應用
編碼器-解碼器
結構來學習采樣點雲的方法,因為原始數據的全局感知會在植入過程中受到損害,所以輸出的特征圖不足以進行細粒度的語義分割分析。文中通過整合來自不同分辨率的信息來重建這種感知,並自適應地融合每個點的多分辨特征,以獲得可直接應用於語義預測的綜合表示。
Contribution:
- 引入了雙邊塊來增加點的局部上下文。
- 自適應地融合多分辨特征以獲得關於點雲的綜合知識。
- 提出了一種新的語義分割網絡來處理真實的點雲場景。
Methodology
- 點雲表示:\(P \epsilon \Bbb R^{N×3}\) 表示N個點的三維坐標集合。\(F \epsilon \Bbb R^{N×d}\)表示N個點的d維特征空間,這些特征可以通過CNN的隱含語義上下文線索的操作進行隱式編碼。
Bilateral Context Module
- 雙邊上下文模塊由多個雙邊上下文塊組成,用於研究不同分辨率下的點雲。
- 在雙邊上下文塊中,通過涉及雙邊輸入信息中相互學習的偏移量(即\(p_i \epsilon \Bbb R^3\)和\(f_i \epsilon \Bbb R^d)\)來擴大每個點的局部上下文,然后將擴大的局部上下文聚合起來用於點特征表示。
Bilateral Augmentation
- 對於每一個\(p_i\)利用KNN算法找到其領域\(\forall p_j \epsilon N_i(p_i)\)和其領域特征\(f_j\)。將\(p_i\)的絕對位置和其領域的相對位置合並為局部上下文\(G_{\psi}\)。\(G_{\psi}(p_i)=[p_i;p_j-p_i]\)表示三維空間中的局部幾何上下文,\(G_{\psi}(f_i)=[f_i;f_j-f_i]\)表示特征空間中的局部語義上下文。
- 然而,\(G_{\psi}(p_i)\)和\(G_{\psi}(f_i)\)可能不足以代表鄰域由於兩個原因:1) 在3D空間的固定約束下嚴格形成的\(G_{\psi}\)可能會削弱\(G_{\psi}\)在高維特征空間中的泛化能力,以及2) \(G_{\psi}\)在接近區域(相鄰鄰域的交界處)的鄰域表示中可能具有冗余。
- 為了解決這些問題並增強特征的泛化能力,可以通過添加雙邊偏移來增強局部上下文,這將移動鄰域點並將他們密集地附屬到鄰域的中心。
- 首先,基於\(G_{\psi}(f_i)\)豐富的語義信息來擴充\(G_{\psi}(p_i)\),在\(G_{\psi}(f_i)\)上應用MLP來估計雙邊偏移\(\tilde{p}_j\):
- 之后,利用\(\tilde{p}_j\)來增強局部幾何上下文:\(\tilde{G}_{\psi}(p_i)=[p_i;p_j-p_i;\tilde{p}_j]\)。
- 然后,利用增強的局部幾何上下文\(\tilde{G}_{\psi}(p_i)\)進一步增強局部語義上下文:
- 得到增強的局部語義上下文 \(\tilde{G}_{\psi}(f_i)=[f_i;f_j-f_i;\tilde{f}_j]\)。
- 最后,通過MLPs將\(\tilde{G}_{\psi}(f_i)\) 和 \(\tilde{G}_{\psi}(p_i)\) concat起來,得到增強的局部的上下文 \(\tilde{G}_i\) :
Augmentation Loss
- 由於既要為鄰域提供3-自由度增強,又要保持密集鄰域的幾何完整性,所以最好將鄰域作為一個整體來考慮,而不是單獨考慮鄰域。
- 直觀地說,通過最小化 L2 距離來鼓勵移位鄰域的幾何中心接近3D空間中的局部質心。
Mixed Local Aggregation
- 雖然非參數對稱函數可以有效地總結點的局部信息,但它們不能顯式地顯示局部差異,尤其是對於共享相似局部上下文的鄰近點。
- 為了解決這個問題,文中在給定擴展的局部上下文 \(\tilde{G}_i\) 的情況下,一方面直接從k個鄰域中收集最大(顯著)特征,以獲得鄰域的概貌,另一方面通過學習鄰域上的高維重心(即加權平均值)來提煉和獲得更多細節,最后結合兩種類型的信息(局部最大值和均值特征),以精確地將點表示為:
Adaptive Fusion Module
-
雖然通過對下采樣點雲子集應用級聯雙邊上下文塊可以很容易地實現,但是對應的輸出特征變得隱含和抽象。因此,有必要恢復提供原始點數的特征地圖,並綜合解釋每個點的編碼信息。
-
利用以下算法,進行漸進上采樣,直到生成所有N個點的全尺寸表示。
-
具體來說,我們在生成每個全尺寸feature map的上采樣過程中,額外總結了\(φ_m∈R^N\)的點級信息,以獲取不同尺度下的基本點級理解。
-
接下來,通過分析這些點級感知\(\{φ_1,φ_2,...,φ_M\}\),總體上回歸了融合參數\(\{φ_1,φ_2,...,φ_M\}\)對應於全尺寸的特征圖\(\{ S_1,S_2,...,S_M\}\)。
-
最后,在每個點上自適應地融合用於語義分割的綜合特征圖\(S_{out}\)。
Implementation Details
- Feature Extractor:應用單層MLP(即1×1卷積層,隨后是批量歸一化和類似ReLU的激活函數)來獲得高級緊湊的語義特征。
- Bilateral Context Module:利用FPS來對點雲進行下采樣。
- Adaptive Fusion Module:對於上采樣過程,首先,單層MLP集成了輸出要素圖的通道信息。然后,使用最近鄰插值對更高分辨率的要素地圖進行點狀插值。此外,對稱地附加來自相同分辨率的特征,以便增加鄰近點的多樣性和清晰度。最后,通過另一個單層MLP合成更高分辨率的特征地圖。
- Loss Function: