論文地址: https://openaccess.thecvf.com/content/ICCV2021/html/Wong_Persistent_Homology_Based_Graph_Convolution_Network_for_Fine-Grained_3D_Shape_ICCV_2021_paper.html
代碼:未開源
摘要
細粒度的3D分割是3D對象理解中的一項重要任務,尤其是在智能制造或3D對象的零件分析等應用中。然而,此類問題中涉及的許多挑戰仍有待解決,例如i)解釋3D對象不同區域的復雜結構;ii)捕獲具有足夠拓撲正確性的細粒度結構。當前的深度學習和圖機器學習方法無法應對這些挑戰,因此在細粒度3D分析中表現不佳。在這項工作中,拓撲數據分析方法與幾何深度學習模型相結合,用於3D對象的細粒度分割任務。我們提出了一種新的神經網絡模型,稱為基於持久同源的圖卷積網絡(PHGCN),i)將持久同源集成到圖卷積網絡中,以捕獲能夠准確表示3D對象復雜結構的多尺度結構信息;ii)應用一種新穎的持久性圖損失(LPD),為細粒度結構上的分割提供足夠的拓撲正確性。細粒度3D分割的大量實驗驗證了所提出的PHGCN模型的有效性,並顯示出對當前最先進方法的顯着改進。
1、引言
細粒度3D語義分割是一項對每個3D點輸入的標簽進行語義分類的任務。對於智能制造、自動室內設計和家具布置、自主機器人操作、人機交互、3D服裝分析等許多對3D形狀進行詳細處理和分析的應用來說,這是一項必不可少的任務。
由於細粒度3D對象的特定屬性,分割細粒度3D對象涉及許多挑戰,例如i)位於不同區域的復雜結構如何分割;ii)形狀相關的拓撲結構(例如,物體的把手、門把手、設備線)如何分割。這些屬性總是表現在細微的部分或多個小的連接組件中,這對於下游任務(例如機器人操作)在語義上很重要。充分解釋這兩個主要結構對於准確的3D細粒度語義分割任務至關重要。未能解決這些挑戰將大大降低語義理解3D細粒度對象的性能並產生不連貫的分割輸出,這對於智能制造和機器人操作至關重要。
近年來,基於深度神經網絡的方法[6,16,21]和幾何學習方法[15,27,28]已成為3D點雲理解任務中的主流方法,從一般的3D對象分類到語義對象和場景的分割。回顧這些方法,發現它們並不是專門為理解具有復雜結構或形狀相關拓撲結構的細粒度3D對象的任務而設計的。[15,27,28]中的方法應用圖神經網絡(GNN)或圖卷積網絡(GCN)模型從3D點雲中的幾何結構中提取特征。然而,這種方法僅捕獲由邊表示的成對關系,因為在GNN/GCN模型中構建的相鄰圖僅表示3D點雲之間的成對關系。因此,細粒度3D對象的復雜結構中存在的高維關系無法被精細捕獲。最近的工作PartNet模型[31]應用級聯二進制標記來表示用於分層分割的自上而下的遞歸部分分解。然而,二進制標記的表示能力受到層次結構深度的限制,因此難以處理具有多個復雜結構的3D對象。
事實上,復雜結構中存在的幾何和拓撲信息是理解細粒度物體形狀的基本線索。拓撲數據分析(TDA)[3]是一個新興領域,它從復雜數據中推斷出相關的拓撲和幾何特征。TDA使用一種稱為復形過濾的機制來構建輸入點雲的多尺度拓撲結構,提取點雲復雜結構中存在的高維關系,如圖1(a)。然后,將TDA中的一個工具持久同源應用於生成的嚴格遞增子復形的嵌套序列,稱為過濾復形,以計算多尺度拓撲特征,表示為持久條形碼和持久圖,如圖1(b)和(c)所示。生成的持久性圖中的0-dim、1-dim和2-dim持久同調特征對應於點雲中的連接組件、圓圈和更高維對應物(例如空腔)。

在這項工作中,我們選擇了TDA工具[10]來提出一種新的網絡模型,稱為基於持久同源的圖卷積網絡(PHGCN),它將持久同源特征結合到GCN網絡中,以增強其捕獲細粒度3D對象的復雜結構中的多尺度拓撲特征的能力。
為了進一步解決細粒度分割問題,我們發現細粒度對象依賴於形狀的拓撲結構,尤其是連接部分(例如手柄、電線、旋鈕)總是表現為小尺寸對象或薄連接組件,這也使得相關分割變得困難,因為在分割任務中通常使用的交叉熵損失可能無法充分反映拓撲錯誤,即使整體損失值很低。為了克服這個問題,我們提出了一種持久性圖損失( ),它作為拓撲約束來確保分割輸出具有足夠的拓撲正確性,從而獲得連貫的分割輸出。
據我們所知,我們的工作是第一個引入持久同源性來解決細粒度3D語義分割問題的工作。我們工作的主要貢獻總結如下:
1.憑借持久的同調特征,一種新穎的GCN網絡模型能夠捕獲細粒度3D對象中復雜結構的多尺度拓撲特征。
2.應用一種新的持久性圖損失來加強預測中的拓撲正確性,以提供連貫的細粒度分割輸出。
3.所提出的工作證明了用計算拓撲方法擴展通用GNN/GCN結構的可行性。
在具有挑戰性的3D對象部件分割基准上評估了細粒度語義分割的廣泛實驗,這表明所提出的PHGCN模型實現了最先進的結果。
2、拓撲數據分析的預備知識
拓撲數據分析(TDA)[3]是一個新興領域,其目標是從復雜結構的數據中捕獲相關的拓撲和幾何特征。在本節中,提供簡要概述以突出TDA中的機制。TDA的詳細信息可以在開創性論文[11,33]中找到。
2.1 單純復形
由於沒有從數據點中提取拓撲信息的直接方法,因此將單純復形構造為對采樣點的基本形狀的拓撲近似。單純復形可以看作是圖的高維擴展,它包含不同維度的單純形的集合。k-dim單純形的幾何實現分別是頂點(k=0)、邊(k=1)、三角形(k=2)、四面體(k=3)和高階對應物(k⩾4)。
2.2 同調群
為了計算分析單純復形的拓撲特征,將同調群分配給單純復形。同調群是描述單純復形在不同維度上的拓撲特征的一種數學群。k-dim同調群的拓撲特征分別指連通分量(k=0)、圓圈(k=1)和空腔(k=2)。
2.3 持久同源性和過濾
持久性是一種在給定參數變化時形狀如何變化的度量。持久同源性提供了一種跟蹤拓撲特征在某些參數(例如每個數據點的規模)變化期間何時出現和消失的方法。在此期間,會生成一個嵌套的單純復形序列,也稱為過濾,如圖1(a)所示。過濾通過增加尺度參數來捕捉單純復形的演化過程,尺度參數可視為數據點下的多尺度拓撲空間。因此,每個多尺度拓撲特征的生命周期被記錄為持久性條形碼,如圖1(b)所示。然后可以將持久性條形碼轉換為每個拓撲特征的出生時間和死亡時間,並表示為持久性圖,如圖1(c)所示。最終,捕獲了數據點中的形狀的多尺度拓撲信息。
3、相關工作
在本節中,將討論兩種主要的相關技術:點雲上的深度學習方法和持久同源方法。
3.1 點雲深度學習
基於深度神經網絡的方法在2D圖像語義分割任務中的成功[7,23,32],提高了其在3D點雲輸入方面的可行性[6,16,17,21,30]。然而,這些方法在捕獲點之間的連接方面缺乏足夠的能力。基於圖的方法,如DGCNN[28]、ResGCN-28[15],通過將每個點設置為節點並通過測量點對之間的相關性來構建邊,明確地從點雲構建圖。然而,此類方法僅捕獲點之間的成對關系,並且難以捕獲復雜結構的高階關系,高階關系在細粒度對象中很普遍。
3.2 機器學習中的持久同源性
持久同源性是拓撲數據分析中的一種基本方法,用於從不同空間分辨率的幾何實現中提取拓撲特征。提取的拓撲特征提供了對數據底層形狀的洞察,並作為部署在機器學習管道中的強大特征發揮作用[1,2,14]。因此,TDA方法的有效性吸引了計算拓撲方法在各種應用中的廣泛采用,包括動作識別[25]、醫學成像[8,22]、形狀匹配[20]和神經網絡設計[4,9]。最近的一些工作[12,13]也探索了持久同源性的可微性的可行性。受這些有前途的工作的啟發,提出了一種新的PHGCN將持久同源機制與圖卷積網絡相結合,以捕獲細粒度對象復雜結構中的多尺度結構信息。
4、方法
在本節中,我們將詳細介紹我們提出的細粒度3D語義分割方法。所提出的方法由兩個核心模塊組成:1)基於持久同源的圖卷積神經網絡(PHGCN),通過拓撲持久性(PH)和圖卷積網絡(GCN)的結合來捕獲復雜結構中的多尺度結構信息,2)持久性圖損失( )應用於優化中,以減少拓撲誤差來實現分割細粒度結構。整個網絡架構如圖2所示。每個提出的模塊的詳細信息將在以下部分中描述。

4.1 通用圖卷積網絡(GCN)

4.2 基於持久同源的圖卷積網絡(PHGCN)
通過應用順序GCN層的計算,得到的局部特征圖僅捕獲局部鄰域的特征,這不足以理解3D細粒度對象。在這項工作中,我們采用拓撲數據分析工具來提取隱藏在3D細粒度對象的復雜結構中的基本信息。
持久同源性(PH)是一種來自拓撲數據分析的數學工具,能夠提取點雲形狀中的可證明穩定的拓撲特征。為了克服通用GCN模型無法捕獲3D細粒度對象的復雜結構的問題,我們通過集成PH模塊來擴展GCN模型,以提取復雜結構中的基本拓撲信息。
PH模塊中描述了提取持久同源特征的方法,如圖3(b)所示:N個3D點的輸入點雲可以被認為是一個有限度量空間,記為X_N,過濾結構被應用在X_N中,以通過不同的尺度參數,提取一系列多尺度被過濾的單純復形,記為Filt(X_N)。然后,應用持久同源性計算拓撲特征的演化和拓撲特征出現時間和消失時間之間的時間段,記為出生時間b和死亡時間d。這樣的周期通常由持續圖(PD)來描述,它是二維平面中的點集,其中每個點(b,d)代表第k個持續同源類,它在時間b出現並在時間d消失(維度k=0,1,2分別指連接組件、圓圈和空腔)。生成的PD反映了對解釋復雜結構至關重要的多尺度拓撲信息。


4.3 持久性圖損失Lpd

因此,拓撲約束被附加在優化中,以增強分割輸出中的連貫性和連通性,特別是對於具有形狀相關拓撲結構的細粒度對象。
4.4 網絡架構
參考Pointnet++[21]的網絡架構設計,我們提出的PHGCN模型采用編碼器解碼器樣式[21,27,29]進行部件語義分割任務。編碼器模塊包含四個圖卷積網絡(GCN)層,它們被認為是局部特征的提取器。然后,提取的局部特征與從復雜結構中由持久同源(PH)模塊捕獲的拓撲特征融合。為了對編碼器下采樣的特征進行上采樣,由四個FPConv層組成的解碼器模塊用於逐漸將特征內插為輸入的原始大小。為了進行優化,使用3D對象的每個部件類別的預測值和真實值來計算PD損失Lpd,然后將其與交叉熵損失Lce集成。
5、實驗
5.1 ShapeNet-Part數據集的分割
ShapeNet-Part[5]數據集是3D細粒度逐點分割的第一個完整基准。它包含來自16個類別的16,881個CAD形狀實例,並在2,048個采樣點上標注了零件標簽。零件標簽共有50種。每個類別都標注有兩到五個零件標簽。
對於定量評估,我們按照PointNet[6]的設置選擇14,007個形狀實例作為訓練集,其余2,874個作為驗證集進行准確性評估。每個實例的2,048個采樣點的3D坐標用作輸入。
定量和定性結果:ShapeNet-Part數據集評估的定量結果在表1中提供。part-wise Intersection-over-Union(IoU)用作我們評估中的指標,並針對每個對象類別給出和平均值(mIoU)。結果表明,所提出的PHGCN提供了最佳結果,部件mIoU為89.2%,優於所有其他競爭方法。具體來說,PHGCN在結構復雜的細粒度物體(如台燈、吉他)和具有較薄部件的物體(如耳機、杯子、桌子和椅子)上取得了顯着的增益,這說明PHGCN中的持久同源機制在解釋細粒度對象的復雜結構和形狀相關拓撲結構方面發揮了作用。

ShapeNet-Part數據集驗證集的定性分割結果如圖4(a)所示,其中PHGCN模型的預測與地面真實部分標簽注釋非常一致,即使ShapeNet-Part數據集包含一個復雜結構和薄零件中的許多形狀。為了更好地了解提取的拓撲特征的有效性,我們對兩種具有代表性的幾何深度學習方法(DGCNN、ResGCN28)進行了定性比較。在圖4(b)中,對於具有細粒度部分的對象(燈和杯子),分割(DGCNN、ResGCN-28)在小組件上存在連接斷開和錯誤分類的問題,而PHGCN提供了連貫的分割足夠的拓撲正確性。對於具有多尺度和復雜結構的對象(電機),分割(DGCNN,Res28GCN)顯示車輪附近的手柄和部件被錯誤分割,而PHGCN的輸出足夠准確作為地面實況。

5.2 PartNet數據集上的分割
所提出的PHGCN模型在稱為PartNet[18]數據集的更大、更復雜的基准上進一步評估。PartNet[18]數據集包含26,671個形狀實例,並分為573,585個具有細粒度零件注釋的零件實例。它涵蓋了24個對象類別。
在這些品類中,還有一些結構復雜的品類,如台燈、水龍頭、椅子等。此外,某些類別(例如門、冰箱、耳機)包含薄且語義上重要的部分,例如耳機線、門把手或冰箱。PartNet數據集的所有這些屬性都給准確分割帶來了巨大挑戰。
對於定量評估,我們按照PartNet[18]的設置將數據集分成訓練集、驗證集和測試集,比例分別為70%、10%、20%。每個輸入實例是從每個CAD模型中采樣的10,000個點,並且僅使用3D坐標作為輸入。為了驗證我們提出的方法在細粒度對象分割上的有效性,選擇PartNet(17個類別)的精細級別(level-3)進行評估。
定量和定性結果:在表2中,PHGCN的結果與PartNet數據集上的幾種最先進的方法進行了比較。比較結果表明,所提出的PHGCN模型執行所有先前的最先進的方法,如PointNet++[21]、PointCNN[16]、ResGCN[15]、ADConvnet[29],據報道通過每個類別的部分IoU和所有類別的平均IoU。特別是,PHGCN相對於圖深度學習方法(例如DGCNN和ResGCN-28方法)提供了超過10%的相對改進。據觀察,具有復雜結構的細粒度物體(如水龍頭、燈和椅子)可以以更高的精度進行分割。連同這一結果,與其他最先進的方法相比,所提出的PHGCN與具有薄部件的物體(如耳機、門和冰箱)相比,實現了顯着的精度提升。這是分割細粒度3D對象(即薄部分)的意義和最重要的一點,而現有的最先進方法可能無法在薄部分上獲得更高的精度。通過應用持久同源方法,所提出的PHGCN更有效地捕獲了這些薄部分的結構信息,從而給出了PHGCN提供更高准確性的原因。


5.3 消融分析
消融分析在ShapeNetPart和PartNet數據集上進行,以驗證所提出的PHGCN模型的有效性。消融結果如表3所示。

(1)。用通用GCN模塊替換PHGCN模塊。PHGCN的持久同源機制使模型能夠以多尺度的方式從復雜結構中提取拓撲信息。作為比較,一般的GCN層僅捕獲局部鄰域中成對結構的信息。結果,性能大大降低。
(2)。僅使用Lce。 Lpd損失函數為細粒度結構上的相干分割提供了足夠的拓撲正確性。通過從方程式(5)中刪除Lpd,由於不連貫的分割輸出,性能降低。
表3比較了所有消融變體的部分mIoU分數。得出的結論是:i)最重要的成分來自PHGCN模塊,因為多尺度結構信息在細粒度對象中是必不可少的。ii) 的作用顯示了性能中的下一個重要因素,特別是對於具有薄部件的細粒度對象。從這項消融研究中可以看出,所提出的模塊和損失函數(構成完整的PHGCN模型)達到了最先進的精度。
5.4 持久性圖的復雜性分析
為了在保持所提出模型的性能的同時降低計算成本,我們應用了Alpha復雜過濾而不是耗時的過濾,例如VietorisRips或Cech復雜過濾。ShapeNet-Part實例計算PD的平均運行時間為0.25秒(使用Inteli7CPU),這在我們的場景中已經足夠合適了。
6、結論
在這項工作中,提出了一種新的基於點雲的神經網絡模型,稱為PHGCN,它集成了計算拓撲方法來解決細粒度3D對象語義分割中的幾個挑戰。所提出的PHGCN將持久同源機制應用於圖卷積網絡以處理具有多尺度復雜結構的輸入。它還應用 損失函數來加強預測中的拓撲正確性,以提供連貫的細粒度分割輸出。
通過這兩項改進,細粒度對象(尤其是結構復雜的對象,如水龍頭、台燈、椅子和具有薄部件的對象,如耳機、門和冰箱)的分割結果在准確度上得到了顯着提高。PHGCN的性能在兩個具有挑戰性的基准上的准確性方面得到了驗證。從實驗來看,PHGCN優於幾種最先進的基於點雲的分割方法。實驗結果也驗證了PHGCN的貢獻:i)基於持久同源性的GCN是一種從3D對象中捕獲多尺度結構信息的有效機制;ii)對於細粒度結構,具有足夠拓撲正確性的更准確和連貫的語義分割;iii)比最先進的幾何深度學習方法具有更高的准確度(例如,在PartNet數據集評估上比DGCNN和ResGCN-28方法相對提高10%以上)。