CLOCs:3D目標檢測多模態融合之Late-Fusion


 

作者:蔣天園

來源:微信公眾號@3D視覺工坊

鏈接:CLOCs:3D目標檢測多模態融合之Late-Fusion


文章:CLOCs: Camera-LiDAR Object Candidates Fusion for 3D Object Detection
論文地址:在公眾號「3D視覺工坊」,后台回復「Late-Fusion」,即可直接下載。

0 前言

目前很多3D目標檢測的工作都朝着多模態融合的方向發展,即是不僅僅使用單張圖像或者僅僅使用點雲做3D目標檢測任務,而是在融合這兩種傳感器信息上作出一定的探索,今天筆者想要分享的一篇研究工作即是在這方面比較新的文章。論文
筆者給出該文章目前在KITTI object 3d的實驗效果如下.(本文介紹的這篇文章於20.9.1放置在arxiv上,並不是下圖對應的IROS的文章,但是是同一個作者)

KITTI檢測結果可視化如下。

1 背景知識

1.1 三種多模態融合的方法

不僅僅是指點雲和圖像的兩種模態的信息融合方法,一般的來講針對多模態信息的融合一般有如下的幾種方式。

Early-Fusion

Early-Fusion 即是在對原始傳感器數據做特征提取之前做特征融合。在3D目標檢測中有文章pointpainting(CVPR 20),PIRCNN(AAAI20)等文章采用這種方式,就pointpainting而言,首先是對image圖像做語義分割,然后將分割后的特征通過點到圖像像素的矩陣映射到點雲上。再經過深度學習網絡對Bbox回歸。就理論上講,該種融合方法是多模態融合的可能最好的方法,因為此時對應的特征在現實中存在一定的索引關系和更少的特征抽象。

Deep Fusion

如下圖所示的融合方法,該融合需要在特征層中做一定的交互。目前就3D目標檢測多模態的研究中,存在的文章有今年ECCV的EPNet,3的CVF等文章,就EPnet而言,主要的融合方式是對lidar 和image分支都各自采用特征提取器,對圖像分支和lidar分支的網絡在前饋的層次中逐語義級別融合,做到multi-scale信息的語義融合。這是這里提到的三種融合方法中比較難,也是最可能創造出新的融合方法的融合方式。

Late fusion

如下圖所示,最簡單的融合方法就是兩種模態的特征不在特征層或者最開始就融合,因為不同傳感器的數據本身存在比較大的差異,就LiDAR和Image而言,最大的差異就在view的不同,導致在圖像上存在物體scale隨距離的不同而改變,但是在點雲上不存在這個問題;此外,筆者認為圖像和點雲做特征層的融合最大的難點也在像素和點雲點之間索引精准性和領域差異的問題。就本文介紹的這篇文章而言,采用了late fusion的融合方法,因此作者自己給出的本文的優勢在於該融合方式是low-complexity的。
總結一下上訴提到的三種融合方式,其中第一種的early-fusion實際上是在最初的輸入上的融合,而deep-fusion則是在特征層面上的融合,最后的late-fusion則是對應在決策層上的融合。

1.2 主要的幾種多模態融合方法

目前3D目標檢測的多模態融合的方法可以從最早的F-pointnet說起(CVPR17),PointFusion(CVPR18),Frustum ConvNet(ICRA18)都是通過2D目標檢測器首先生成Bbox,然后再采用投影到三維點雲上做進一步對Bbox做優化工作,該類方法對2D的檢測的效果比較依賴。后續是AVOD(CVPR18)和MV3D(CVPR17),從BEV視圖上對點雲做特征提取,但是該類方法存在點雲到BEV視圖的壓縮時丟失幾何結構信息。MMF(CVPR19)將點雲BEV視圖信息和圖像信息在point-wise級別上做特征融合。

2. 本文的工作

2.1 主要創新點

1. Versatility & Modularity

本文的方法使用任何一對預先訓練好的2D和3D檢測器,而不需要再訓練,因此,可以很容易地被任何相關的已經優化的檢測方法所使用。

2. Probabilistic-driven Learning-based Fusion

CLOCs的設計目的是利用二維和三維檢測的幾何和語義一致性,自動學習訓練數據的概率依賴進行融合。

4. Detection Performance

CLOCs改進了單模態檢測器的檢測性能,以達到新的水平。

2.2 主要工作

1. 怎么做點雲和圖像的融合工作

筆者前面介紹了目前流型的三種常用的多模態特征融合工作,而本文采用的則是在決策層面的特征融合,即是late-fusion,這樣融合的好處在於兩種模態的網絡結構之間互不干擾,可以獨自訓練和組合;但是也存在一定的缺點就是在決策層做融合實際上是對原始數據信息融合的最少的。同樣就前文中描述的late-fusion存在的問題而言,兩種模各自產生對應的proposals,每個proposals在對應的模態中的置信分數是不存在聯系的,因此需要解決的問題之一就是讓多模態之間產生的proposals置信分數存在聯系。

2. 如何讓不同模態的proposals存在聯系

也就是上面提到的問題,這里的話,作者采用的方式是Geometric-consistency和Semantic-consistency這兩種。1)Geometric-consistency:基於如下圖所示的這種觀察:如果說在二維檢測和三維檢測上都同時檢測到這個物體,並且都是ture-positive的,那么這中情況下二維和三維對應的角點是大概率一致,或者存在比較小的偏差。但是如果該檢測結果是flase-positive的,那么兩種檢測器之間的檢測結果就大概率是在角點上對不上的。因此作者認為這種幾何結構一致性是可以作為檢測結果的一種聯系。
2)Semantic consistency: 因為對於每一個模態的檢測器而言,可能都存在多種類別的輸出,作者在融合階段僅僅只是對同類別的object做融合。

3. 網絡結構的設計

主要的網絡結構圖如下所示,這里可以看出經歷了三個主要的階段(1)2D和3D的目標檢測器分別提出proposals(2)將兩種模態的proposals編碼成稀疏張量(3)對於非空的元素采用二維卷積做對應的特征融合。

1)稀疏張量編碼

對於二維圖像檢測出來的二維檢測結果,如下圖所示,作者采用混合表示的方式表示兩種模態的的檢測結果,其中第一項表示在圖像中的第i個檢測結果和點雲中的第j個的幾何一致性(也就是前面提到的Geometric-consistency,這里用IOU表示),第二項內容是二維檢測的第i個檢測到的物體的置信度分數,第三個為在點雲場景下的置信度分數。最后一項表示在點雲場景下檢測到的第j個物體到地面的歸一化距離。這樣就可以把該結果表示為一個系數的四維張量,后續可直接輸入卷積網絡做融合。

2) 網絡細節設計

盡管采用的二維卷積對上述的稀疏張量做特征融合,其對應的需求僅僅是融合而不是感知,所以在卷積核的設計上作者采用的1×1的核大小。如網絡結果圖所示的詳細的網絡參數,最后采用maxpooling的方式選擇最終的融合結果。

3. 實驗

在KITTI的test數據集的BEV視圖上的實驗結果如下,因為本文實際上提出的是一種融合方法,並不是某種確定的網絡結構,因此對於二維檢測器和三維檢測器的選擇上純在多種可能,就作者的實驗可以看出,PV-RCNN+Cascad RCNNd的實驗效果是最好的。

此外,在val數據集上,作者采用當前流型的幾種二維目標檢測和三維目標檢測的網絡結合的實驗如下。但是這里筆者需要提到的是,這里采用的是最新的Recall40的結果而不是前幾年的reall11的結果,因此顯得比較高也是正常的,但是筆者也認為這里應該給出對應的使用點雲的單模態的精度結果。

4. 筆者的思考

就本文的內容而言,筆者認為相對以往的融合工作來說還是容易的,但是作者選擇了最容易操作的late-fusion模式,利用了late-fusion中單模態檢測器之間互不干擾的特性做了多種檢測器的組合,因此這是值得借鑒和推廣的。
不過筆者還是想提出的就是目前的融合工作更多地都是采用第二種deep-fusion的方式,原因主要是這種融合方式的自由度更大,在特征層的融合可以實現不同傳感器信息之間的互補,而不采用early-fusion的方式則是因為這種融合方式則是該階段會存在更多的視角,特征表示上的差距導致了融合困難。最后筆者也想推薦一下最近筆者整理的一個項目,該項目主要針對自動駕駛場景的3D目標檢測的論文和項目的匯總。方便大家查閱最新的文章。該項目地址為:https://github.com/LittleYuanzi/awesome-Automanous-3D-detection-methods

參考文獻

[1] CLOCs: Camera-LiDAR Object Candidates Fusion for 3D Object Detection :https://arxiv.org/pdf/2009.00784.pdf
[2] PI-RCNN: An Efficient Multi-sensor 3D Object Detector with Point-based Attentive Cont-conv Fusion Module :https://arxiv.org/pdf/1911.06084
[3]PointPainting: Sequential Fusion for 3D Object Detection. https://arxiv.org/pdf/1911.10150
[4]EPNet: Enhancing Point Features with Image Semantics for 3D Object Detection. https://arxiv.org/pdf/2007.08856
[5]Deep Continuous Fusion for Multi-Sensor 3D Object Detection. http://openaccess.thecvf.com/content_ECCV_2018/papers/Ming_Liang_Deep_Continuous_Fusion_ECCV_2018_paper.pdf
[6]End-to-end Learning of Multi-sensor 3D Tracking by Detection. https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=8462884
[7] IPOD: Intensive Point-based Object Detector for Point Cloud. https://arxiv.org/abs/1812.05276本文僅做學術分享,如有侵權,請聯系刪文。

下載1在「3D視覺工坊」公眾號后台回復:3D視覺即可下載 3D視覺相關資料干貨,涉及相機標定、三維重建、立體視覺、SLAM、深度學習、點雲后處理、多視圖幾何等方向。
下載2在「3D視覺工坊」公眾號后台回復:3D視覺github資源匯總即可下載包括結構光、標定源碼、缺陷檢測源碼、深度估計與深度補全源碼、點雲處理相關源碼、立體匹配源碼、單目、雙目3D檢測、基於點雲的3D檢測、6D姿態估計匯總等。
下載3在「3D視覺工坊」公眾號后台回復:相機標定即可下載獨家相機標定學習課件與視頻網址;后台回復:立體匹配即可下載獨家立體匹配學習課件與視頻網址。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM