CVPR2020:三維實例分割與目標檢測


 CVPR2020:三維實例分割與目標檢測

Joint 3D Instance Segmentation and Object Detection for Autonomous Driving

論文地址:

http://openaccess.thecvf.com/content_CVPR_2020/papers/Zhou_Joint_3D_Instance_Segmentation_and_Object_Detection_for_Autonomous_Driving_CVPR_2020_paper.pdf

摘要

目前,在自主駕駛(AD)中,大多數三維目標檢測框架(基於錨定或無錨)都將檢測視為一個邊界盒(BBox)回歸問題。然而,這種緊湊的表示不足以探索對象的所有信息。為了解決這個問題,我們提出了一個簡單實用的檢測框架來聯合預測3D BBox和實例分割。例如分割,我們提出一種空間嵌入策略,將所有前景點集合到它們對應的對象中心。基於聚類結果,可以采用簡單的聚類策略生成目標方案。對於每個集群,只生成一個建議。因此,這里不再需要非最大抑制(NMS)過程。最后,通過我們提出的基於實例的ROI池化,BBox被第二階段網絡改進。在公共KITTI數據集上的實驗結果表明,與其他基於特征嵌入的方法相比,本文提出的SEs方法能顯著提高實例分割的效果。同時,它也優於KITTI數據集測試基准上的大多數三維物體探測器。

1. 介紹             

目標檢測作為AD和機器人領域的一項基礎性工作,近年來得到了廣泛的研究。基於大量的標記數據集[8]、[38]、[39]和一些超強的基線,如基於建議的[9]、[35]和基於錨的方法[26]、[34],目標檢測的性能得到了顯著的提高。為了便於泛化,對象通常表示為一個2D-BBox或3D-cubody,這些參數包括BBox的中心、維度和方向等。許多方法已經證明,這種簡單的表示方法適用於深度學習框架,但也有一些局限性。例如,對象的形狀信息被完全丟棄。此外,對於某個BBox,來自背景或其他對象的一些像素不可避免地被包含在其中。在閉塞的情況下,這種情況變得更加嚴重。此外,BBox表示不夠精確,無法描述對象的確切位置。為了很好地克服這個限制,每個BBox都使用了一個額外的實例掩碼來消除其他對象或背景的影響。通常,實例掩碼是二進制的,用於描述像素是否屬於此對象。通過這種表達方式,即使每個對象之間有很大的重疊,也可以清楚地區分它們。例如,一個簡單的分割方法是首先檢測對象,然后將其作為一個分類問題逐一預測每個BBox的二進制掩碼。沿着這個方向,人們提出了各種各樣的優秀作品,Mask RCNN[13]就是其中之一。

然而,Mask R CNN是一個兩階段的框架,其性能在很大程度上取決於其第一階段的目標檢測結果,例如快速R-CNN[9]或快速R-CNN[35]。另一個流行的分支是基於無提案的方法,它主要基於嵌入損失函數或像素單位學習,如[28]。由於這些方法通常依賴於密集的預測網絡,因此它們生成的實例掩碼可以具有高分辨率。此外,無建議方法通常比基於建議的方法報告更快的運行時間,但是,它們無法給出與基於兩個階段的方法可比較的結果。近年來,隨着距離傳感器(如激光雷達、RGB-D相機)的快速發展和AD的需求,基於三維點雲的深度學習被頻繁地提到。受二維目標檢測框架的啟發,設計了一些基於單階段或兩階段的三維目標檢測框架,如截錐點網[31]、體素網[54]、第二階段[46]、點柱[18]、點RCNN[37]、STD[48]等,[41]和[17]提出將實例信息嵌入到特征空間中,然后用meanshift聚類策略將其分離。三維目標檢測在室內場景[30]和室外場景[52]中都得到了很好的研究。然而,大多數三維實例分割方法都是針對室內環境而設計的,很少能直接用於室外AD轉換場景。在文獻[19]中,Leibe等人提出了一種利用隱式形狀模型同時進行目標分類和分割的方法,該模型可以將這兩個任務集成到一個通用的概率框架中。首先,提取一些可能的局部補丁,並與現成的碼本進行匹配。然后,每個激活的面片對對象中心的可能位置進行投射。最后,采用mean-shift聚類技術在投射空間上找到正確的目標位置。

[19]的啟發,我們提出同時從點雲中聯合檢測和分割三維物體。同樣,對於每個前景(FG)點,SEs都是從一個深層神經網絡中學習的,該網絡對其所屬的對象信息進行編碼,如中心、維度和方向等。基於SEs,FG對象的點可以分別被拉入各自的BBoxes中心。通過學習SEs,使用聚類策略可以很容易地生成實例分割和ROI(感興趣區域)建議。圖2示出了FG對象的預測SE的示例,其中所有學習的SE向量從點開始並指向對象的中心。在這項工作中,我們提出在一個統一的框架中聯合解決目標檢測和實例分割,以提高彼此的性能。通過這樣做,可以同時考慮本地實例和全局形狀信息。總之,本文的貢獻可以概括為             

•設計了一個統一的端到端可訓練框架,可以為AD轉換場景聯合獲得3D BBox和實例分割。             

•與二維圖像中常用的特征嵌入方法相比,我們提出了綜合考慮全局BBox和局部點信息的SE方法。             

•公共KITTI數據集的實驗結果證明了與其他最新方法相比的有效性和效率。

2. 相關工作             

基於圖像的目標檢測與實例分割:二維目標檢測[5]和實例分割[15]近年來引起了眾多研究者的關注,並產生了各種性能優異的方法。近年來,在快速/快速RCNN和掩模RCNN等強大的基線系統的基礎上,目標檢測和實例分割在不同的公共基准上都得到了快速的改進,由於篇幅的限制,本文只介紹了最近提出的實例分割框架,供讀者參考最近的綜述論文[50]對目標檢測的更多描述。目前,二維實例分割的性能主要由基於兩個階段的方法主導,而Mask-RCNN通常被認為是其中的開拓性工作。這種方法基於檢測和分割,首先利用現代目標檢測器檢測前景目標的包圍盒,然后對每個目標逐個預測二值掩模。基於這一超強基線,先后提出了許多不同的版本[2]。雖然該方法在精度方面提供了良好的結果,但它生成的低分辨率掩模並不總是理想的(例如,對於照片編輯應用程序)並且以低幀速率操作,這使得它不適用於諸如AD的實時應用程序。

三維目標檢測與實例分割:             

隨着距離傳感器和AD轉換技術的發展,交通場景中的三維目標檢測越來越流行。受基於圖像的目標檢測啟發,首先將點雲投影到二維(如鳥瞰圖[3]或前視圖[44])中獲得二維檢測結果,然后將二維BBox重新投影到三維中得到最終結果。三維物體檢測的另一個代表性方向是基於體積卷積的方法,因為圖形處理資源的快速發展。體素網[54]是利用體素來表示激光雷達點雲,直接用三維卷積來檢測三維物體的一項開創性工作。基於體素網的框架,提出了第二種方法[46]和點柱方法[18]。與上述兩個方向不同,PointNet[32]是另一種有用的點雲特征提取技術。沿着這一方向,已經提出了幾種最先進的三維物體檢測方法[31,37]。SGPN[40]是首次提出在室內環境中對三維點雲進行實例分割的工作。在這項工作中,我們基於所提取的點網[32]特征為每個點建立了相似矩陣。然后訓練分類器對兩個點是否屬於同一對象進行分類。與SGPN不同的是,新提出的GSPN[49]是一個生成形狀建議網絡,它根據物體的先驗形狀信息和觀測到的三維點雲生成物體的三維模型。MASC[23]依賴於SparseConvNet[10]體系結構的卓越性能,並將其與跨多個尺度估計的實例精度分數相結合。在[41]中,在特征嵌入過程中,作者提出將語義和實例分割的特征融合在一起。在[17]中,方向信息也被應用於特征嵌入過程。最后,通過嵌入特征空間的均值平移mean-shift對實例進行聚類。

點雲深度學習:             

與二維圖像不同,點雲是無組織的,傳統的CNN不能直接用於特征提取。為了利用經典的cnn,提出首先將點雲投影到正視圖或鳥瞰視圖中,然后可以直接應用為2D圖像設計的所有2D cnn。點雲數據的另一個流行表示是體素化體積[54、27、36]。在此基礎上,在三維坐標系中對所有點進行良好的組織,然后利用三維CNNs進行特征提取。由於點雲的稀疏性,這些表示的缺點是內存問題。為了解決這一問題,提出了稀疏卷積,其中卷積只發生在有效體素上。基於此操作[46,10],速度和內存問題都得到了解決。另一個方向是直接處理點雲而不進行任何變換。本文的開創性工作是PointNet[32],它應用MLPs直接提取點特征。沿着這個方向,許多框架被提出用於分類[33]、對象檢測[37]、語義分割[14,29]和其他應用[25,24,7]。

3. 提議的方法             

我們的目標是在AD轉換場景中,在給定的點雲單幀內聯合解決三維實例分割和檢測問題。特別地,點雲被廣泛使用的64線Velodyne激光雷達傳感器掃描。通過實例分割和檢測的結合,我們可以得到以下好處:1)基於實例掩模的表示方法能夠很好地捕捉局部幾何信息點;2)基於BBox的對象表示方法能夠幫助挖掘整個對象的全局形狀信息。             

3.1.概述             

3描述了我們的方法的概述。一般來說,本文提出的方法可以分為兩部分:基於SE學習的目標建議和局部BBoxes改進。首先,可以通過使用骨干網(例如PointNet++[33])來獲得點特征。通過采樣和分組操作,提取了局部特征和全局上下文信息。在骨干網的基礎上,有語義分割和實例感知兩個分支,分別編碼為對象的中心和維度等,每個點都可以方便地生成語義類的基本真實性和所屬BBox的信息。因此,網絡的第一階段可以通過監控信號進行訓練。在SE結果的基礎上,采用深度聚類層進行實例分割。同時,對於每個集群,也會生成一個BBox。然后,對於每個提案,應用一個重新定義的網絡(例如PointNet[32])來重新定義每個提案的3D BBox。在這里,所有建議共享相同的網絡參數。為了更進一步,我們將這些建議轉換為局部標准化坐標系。最后,重新定義的網絡輸出重新定義的3D BBoxes和實例掩碼。

3.2.實例感知SE             

2D實例分割[28]的啟發,已有許多研究[41]利用判別損失函數在特征空間(而不是直接在空間空間)中分割對象[17]。通過使用這種丟失,屬於同一實例的特征被拉近,屬於不同實例的特征被推遠。然而,實例標簽信息不能直接顯式地集成到損失函數中,這種損失是用幾個超參數在特征空間進行編碼的[6]。盡管這種方法在室內環境中取得了令人印象深刻的性能,但是很少有人提出用於AD轉換場景的方法。在介紹我們的方法之前,我們分析了二維圖像和三維圖像在實例分割方面的差異,比例尺[51]、空間布局模糊和遮擋是二維圖像空間中的三個主要問題。它們嚴重影響了目標檢測和實例分割的性能。而這些問題在三維點雲中已經不存在了。相反,物體在空間中變得可分離。然而,從點雲直接使用聚類方法會產生未經驗證的結果。因此,為了便於聚類或分割,需要一個設計良好的中間過程來探索該點的潛在屬性,如語義類、實例標簽和該點所屬的對象信息。點雲特征提取:為了提取點雲的逐點特征,我們采用了常用的PointNet++網絡作為骨干網絡,具有多尺度采樣和分組操作。特別地,所設計的框架是獨立於骨干網的,可以被PointConv[45]、EdgeConv[42]或稀疏卷積網絡[11]等其它結構所代替。基於所提取的特征,我們希望對目標信息進行如下預測。語義信息:以點特征為輸入,設計了一個用於語義類預測的分割分支。由於采用了多尺度采樣和分組策略,使得局部結構和全局上下文信息都被編碼到每個點特征向量中。這對於處理不同大小的對象很有用。

3.3.基於聚類的方案生成             

根據預測的SEs結果,將所有FG點聚合到相應對象的質心上。我們在圖3的右上角顯示了一個預測SE的例子,其中我們用紅色表示拉點(原始位置加上預測偏移)。從這個例子中,我們可以明顯地發現,這些紅點可以通過簡單的聚類算法(即K-均值[1])很容易地分離出來。實例分割結果的示例也示於圖3的右下角,其中每個實例已用不同顏色顯示。在聚類之后,還通過平均前k個預測(例如,k=5)為每個實例生成一個平均BBox。此外,我們將為下一階段的感興趣區域(ROI)池保留點和BBox的聚類id。  

3.4.BBox刷新             

雖然第一階段的BBox預測非常精確,但仍有一定的改進空間。與其他基於兩階段的方法類似,我們直接執行基於對象方案內部點的PointNet++網絡。此外,提出了一種基於實例的ROI輪詢策略,以彌補BBox在提議階段的不精確性。具體來說,在這個策略中已經做了兩件事:第一,屬於一個集群的點將被用於第二階段,即使其中一些點不在BBox內。其次,如果某些FG點與BBox共享不同的集群id,那么即使它們位於BBox內,也會被刪除。為了更好地利用局部信息,我們將該方案轉換為局部標准化坐標系。對於每個返還率,M點和第一階段提取的特征被隨機選擇作為返還網絡的輸入。             

3.5.多任務丟失             

使用多任務丟失來訓練我們的網絡。這里使用了三種損失,包括語義分割損失、SE損失和3D-BBox回歸損失。此外,這里還使用了一些炒作參數來平衡它們的貢獻。

4. 實驗測試Experimental Results

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM