CVPR2020:點雲弱監督三維語義分割的多路徑區域挖掘


CVPR2020:點雲弱監督三維語義分割的多路徑區域挖掘

Multi-Path Region Mining for Weakly Supervised 3D Semantic Segmentation on Point Clouds

論文地址:

https://openaccess.thecvf.com/content_CVPR_2020/papers/Wei_Multi-Path_Region_Mining_for_Weakly_Supervised_3D_Semantic_Segmentation_on_CVPR_2020_paper.pdf

摘要             

點雲為場景理解提供了內在的幾何信息和表面環境。現有的點雲分割方法需要大量的全標記數據。利用先進的深度傳感器,采集大規模三維數據集不再是一個繁瑣的過程。然而,在大規模數據集上手工生成點級標簽是一項費時費力的工作。本文提出了一種在三維點雲上利用弱標簽預測點級結果的弱監督方法。我們引入多徑區域挖掘模塊,從訓練了弱標簽的分類網絡中生成偽點級標簽。它使用不同的注意模塊從網絡特征的各個方面挖掘每個類的定位線索。然后,利用點級偽標簽對點雲分割網絡進行全監督訓練。據我們所知,這是第一種在原始三維空間上使用雲級弱標簽來訓練點雲語義分割網絡的方法。在我們的設置中,3D弱標簽只指示在輸入示例中出現的類。我們討論了在原始三維點雲數據上的場景級和亞雲級的弱標簽,並對它們進行了深入的實驗。在ScanNet數據集上,我們的訓練結果與一些完全監督的方法是兼容的。

1.介紹             

2D圖像相比,3D數據作為現實世界的投影,帶來了物體和場景的幾何和周圍環境以及它們的RGB信息。這些額外的暗示最近引起了人們的注意。隨着深度學習在二維圖像視覺任務中的巨大成功,研究人員提出了許多基於深度學習的點雲識別任務方法。然而,基於深度學習的方法通常需要大量的數據。近年來,重建算法的進步和更為經濟實惠的消費者級深度傳感器為三維數據采集提供了方便和廉價的途徑。然而,對這些數據的注釋仍然需要耗費大量的人力和時間。特別是對於三維數據,需要對重建的三維網格或分組點進行直接標記。例如,ScanNet[8]是一個流行的真實室內環境的大型RGBD數據集,它提供了來自70個獨特室內場景的1513次三維掃描,包含超過250萬個RGB-D圖像。然后利用RGB-D掃描重建三維網格和點雲。使用可以連接到智能手機和ipad等移動設備上的Structure sensor[31],只有20人參與了1513次3D掃描的收集。盡管數據收集方便,但注釋過程卻是非常費時費力的。據統計,共有500余部作品參與了語義標注過程。為了保證注釋的准確性,每個場景由2到3名參與者進行注釋。總的來說,每次掃描標注的中位和平均時間分別為16.8min和22.3min。本文提出了一種基於弱監督學習的三維點雲語義分割方法。為了減少數據注釋中的人工成本,我們使用了弱標簽,這些標簽只指示在輸入點雲示例中出現的類。因此,我們只能訓練一個標簽較弱的分類網絡。為了尋找分類網絡的目標區域,我們將類激活圖(CAM)[45]引入到三維點雲中,這是一種有效的二維圖像中類特定區域定位方法。然而,CAM通常只在最具歧視性的區域工作。為了在點雲中的所有點上生成精確的偽標簽,我們提出了一個多路徑區域挖掘(MPRM)模塊,從訓練了弱標簽的分類網絡中挖掘不同的區域信息。在我們的MPRM模塊中,我們在分類主干網之后附加了各種注意模塊。我們提出了一個空間注意模塊來收集沿空間域的遠程上下文信息,一個用於探索信道相互依賴性的信道注意模塊,以及一個用於將全局信息聚合為局部特征的點態空間注意模塊。每個注意模塊產生一個分類預測,並用弱標簽進行訓練。通過對每個路徑和原始特征映射應用點類激活映射(PCAM),可以收集從網絡特征的各個方面挖掘出的目標區域並生成點級偽掩碼。為了利用點雲的低層表示和成對關系,我們使用denseCRF[20]來定義偽標簽。最后,我們使用我們的點級偽標簽訓練一個點雲分割網絡。

雖然弱標簽的獲取成本很低,但它們可能太差,無法為網絡提供生成本地化提示的監督。為了在勞動力成本和表現能力之間找到一個平衡點,我們討論了兩個弱標記策略。在圖1中,我們展示了(A)場景級標簽,表示場景中出現的類,這是我們可以為點雲場景獲得的最便宜的標簽;(B)常用的點級別標簽;(C)次雲級別標簽,我們從場景中獲取球形子樣本,並用出現在子雲中的類對其進行標記。為了確保人工成本保持較低的次雲級別標簽,我們只為每個場景選擇有限數量的次雲。在ScanNet中,平均亞雲數為18.4。場景中場景級標簽的估計注釋時間約為15秒,而場景中子雲的注釋時間小於3分鍾,這仍然比點級注釋便宜得多。我們使用場景級標簽和亞雲級標簽對MPRM進行了詳細的實驗。我們闡述了我們的方法提供了一種可行的方法來訓練一個使用弱標簽的點雲分割網絡。我們的結果優於一些流行的全監督點雲識別模型,如PointNet++[28]和[33]。此外,我們還發現使用子雲級別標簽訓練的模型比使用場景級別標簽訓練的模型性能有較大幅度的提高。本文的主要貢獻可以概括為:             

•我們提出了一種弱監督學習方法,用於僅使用場景和次雲級別標簽的三維點雲語義分割任務。據我們所知,這是第一個從原始3D數據上的雲級弱標簽學習點雲場景分割網絡的方法。             

•我們提出了一個多路徑區域挖掘模塊來生成偽點級標簽。利用MPRM中的空間注意模塊、通道注意模塊和點態空間注意模塊,通過從網絡特征中挖掘遠程空間上下文、通道相互依賴性和全局上下文來挖掘各種目標定位區域線索。

2.相關工作             

二維圖像弱監督語義分割:研究了各種監督方法,以減輕圖像密集標注的人工成本。分割任務中采用了Bounding box[18, 32], scribble[23], point[3]。雖然這些類型的監控仍然需要一定的人工成本,但圖像級的注釋要便宜得多。圖像級監控任務的一個常見做法是生成類激活映射(CAM)[45]。其核心思想是從每個類的分類網絡中提取本地化線索。然后,以CAM作為偽標簽訓練分割網絡。然而,由於CAM常常無法找到整個對象區域,許多工作[19,17,20,40,1,9]被提出來提高偽標簽的准確性。雖然有很多弱監督的圖像分割方法,但由於點雲的無序結構和密度的變化,很難直接應用到點雲上。點雲的深度學習:為了在點雲上應用深度學習技術,一些方法將三維點雲投影到圖像上,並在二維圖像上進行處理[5,34,35],但是由於遮擋和密度的變化,這種方法在分割任務中常常會遇到很多不足。將點雲體素化為3D網格並使用密集的3D CNN對其進行處理也很流行[26,4]。由於3D cnn消耗大量的計算資源,稀疏卷積使用散列映射[11,7]來提高基於體素的方法的性能和效率。為了減少量化的工作量,提出了點網類方法[27,28,24,21]直接處理原始的無序點雲數據。這種方法在考慮相鄰局部信息方面存在不足。點卷積網絡[2,16,12,41,37,25,6,14,15]將卷積運算直接引入原始點雲數據。然而,上述方法都是在完全監督下訓練的,因此需要大量的全注釋數據。少監督點雲識別[30]提出了一種自監督方法,通過重新組合隨機分割的點雲部分來學習點雲表示。MortonNet[36]使用Z階來學習具有自我監督的特征。然而,這兩種模型不能直接使用自監督學習特性來完成對象分類、零件分割和語義分割等任務。使用學習到的特征對網絡進行預訓練有助於提高性能並使用較少的完全注釋標簽,這將問題轉化為半監督設置。[38]提出在三維點雲語義分割任務中使用二維語義標注,將三維點雲上的分割預測重新投影到二維,但是需要密集的二維標注,代價仍然昂貴。因此,這些方法仍然需要大量昂貴的注釋,而且目前還沒有直接使用弱3D標簽進行3D場景分割的方法。

3.我們的弱監督環境             

我們將介紹和討論場景級弱標簽和子雲弱標簽。

場景級注釋:在2D圖像的弱標簽中,圖像級標簽是最便宜的。在3D的情況下,場景級標簽也是最經濟的。它只指示每個場景中出現的類。雖然研究者們已經開發了許多成功的二維弱監督圖像分割方法,但是在三維弱監督場景分割中使用場景級標簽有兩個主要的挑戰:(1)從RGB-D序列中重建三維數據,這些序列通常包含比單個圖像更多的信息。因此,大場景的單個標簽相當粗糙;(2)對於室內場景,有幾個常見的類以高頻出現。像牆和地板這樣的類幾乎出現在每一個場景中,它們通常在每個場景中都有一個占主導地位的點數。由於這個嚴重的類不平衡問題,分類網絡可能無法學習區分特征,這使得我們很難找到類區域定位線索。亞雲級標注:為了解決上述問題,同時保持低的標注成本,我們提出了室內場景點雲數據的亞雲級標注。我們將種子點均勻地放置在空間中,取半徑r內的所有相鄰點組成一個亞雲。

4.  我們的框架             

4.1.基線法:PCAM             

CAM[45]作為一種類特定的對象定位工具,在2D圖像的弱監督語義分割任務中起着至關重要的作用。提出了一種點類激活圖(PCAM),將CAM應用到點卷積網絡中,生成點雲數據的定位線索。我們使用帶有ResNet[13]塊的KPConv[37]分類網絡作為我們的主干網。KPConv是一種直接以無序點為輸入的點卷積網絡。提出了一種核卷積運算,它利用索引字典對三維空間核半徑內的一點及其所有鄰域進行卷積。如圖2所示,我們向分類網絡提供點雲/子雲和相應的弱標簽。然后,從卷積層中提取輸出特征映射。附加1卷積層作為分類器,將特征維數減少到類的數量,從而得到PCAM特征圖。在訓練過程中,我們使用全局平均池層獲取預測向量,並使用弱標簽計算sigmoid交叉熵損失。

4.2.多路徑區域挖掘             

在我們的弱監督學習框架中,我們訓練了一個帶有分類標簽的分類網絡,並嘗試從該網絡中找到類區域定位線索。然而,分類網絡僅用於預測輸入點雲的類標簽。從最具區別性的特征中學習就足夠完成分類任務了。因此,在非區分區域使用pcam很難確定類信息。因此,我們希望利用不同的注意機制從網絡中挖掘出更多有區別的區域。由於每一種注意機制關注的是網絡特征的不同方面,因此我們可以產生不同的區分區域,並將它們聚合起來生成我們的點級偽標簽。如圖3所示,我們的多路徑區域挖掘模塊由KPConv ResNet層之后的四個不同路徑組成。第一個路徑是4.1中引入的普通PCAM。同時,我們有空間注意模塊、通道注意模塊和點方向注意模塊。每個路徑后面都有一個1的卷積層作為分類器來生成一個單獨的PCAM。然后,我們使用一個全局平均池層來生成預測向量,並使用每個路徑的弱標簽計算sigmoid交叉熵損失。所有的損失都會反向傳播到主干網。為了生成偽標簽,我們從每個路徑中提取PCAM,通過元素最大值合並它們,並通過最近的上采樣將PCAM上采樣到原始大小。通過獲取最大值,我們可以從分類網絡的各個方面收集不同路徑的鑒別特征。因此,我們可以產生更精確的點級偽標簽。

4.3.學習語義分割網絡             

在獲得四個不同的pcam之后,我們使用元素最大值來獲得每個位置的最大值,並對其進行上采樣以生成偽掩模。然后,為了利用低層次的上下文信息和點之間的成對關系,我們使用dCRF[20]來定義偽標簽。到我們提供了一個全尺度的網絡分割模型。此外,盡管偽標簽分類錯誤,深層卷積神經網絡仍能學習更多的特征表示,並產生更好的結果。在這里,我們使用了KPConv U-Net[29]類結構化細分模型作為最終模型。

5.實驗測試

為了說明效果,我們比較了我們的PCAM基線和MPRM與場景和亞雲級別標簽。表2顯示了類特定的偽標簽性能。在這兩種情況下,使用亞雲級別標簽的性能都處於領先地位。具體地說,我們可以觀察到使用場景級標簽時,對小對象的分割性能非常差,尤其是那些通常放置在牆附近的對象。

如表2所示,我們在訓練集中展示了偽標簽的類特定分割結果。結果表明,多路徑區域挖掘模塊可以同時使用場景級和次雲級標簽來提高分割性能。通過場景級監控,我們觀察到我們的基線方法很難找到與主要類(如門、窗、圖片)相鄰的類的任何信息,而我們的MPRM模塊在這些類上的性能大大提高。它表明,使用我們的MPRM,網絡學習將小對象從主類中分離出來。從圖5可以看出,MPRM從主要類生成更多的小對象區域,並在空間上生成更好的平滑度。

在這一部分,我們進行了詳細的實驗來評估我們的多路徑區域挖掘模塊。如表3所示,我們評估每個路徑的性能以及它們與原始PCAM的組合。同時,我們比較了兩種不同的融合方法。請注意,使用所有四條路徑的損耗同時訓練網絡。與基線結果相比,我們在MPRM中的PCAM路徑比僅僅訓練一個分支要好。因此,我們可以了解到,不同路徑的損失確實有助於分類主干產生更好的特性。在這四條路徑中,空間注意路徑單獨表現最好,並且三個模塊都比原始PCAM產生更好的效果。此外,每兩個分支的組合都優於各自分支的組合,這證明了我們不同的路徑確實在從分類網絡中學習各種特征。由於四條路徑的合並結果比其他任何組合都要高,因此我們證明這四條路徑都有助於生成更好的偽標簽。

在表4中,我們展示了在驗證集上使用子雲級別注釋的分段性能。我們可以觀察到MPRM在驗證集上的性能優於基線方法。我們還發現,重新訓練一個全尺寸分割網絡可以提供比原始特征圖更好的結果,因為一個更深的網絡可以比我們的淺層網絡學習更多的表示。此外,通過再培訓,我們可以將dCRF生成的低層特征聚合到最終模型中,並將后處理步驟合並到端到端網絡中。我們將我們的最終結果與表5中的一些完全監督的方法進行了比較。我們的弱監督方法與現有的方法相比還有很大的性能差距,但是我們的弱監督方法與一些完全監督的方法是兼容的。我們還在圖6中顯示了定性結果。

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM