三維目標檢測算法原理


三維目標檢測算法原理

輸入輸出接口

Input:

(1)圖像視頻分辨率(整型int)

(2)圖像視頻格式(RGB,YUV,MP4等)

(3)左右兩邊的車道線位置信息攝像頭標定參數(中心位置(x,y)

和5個畸變系數(2徑向,2切向,1棱向),浮點型float)

(4)攝像頭初始化參數(攝像頭初始位置和三個坐標方向

的旋轉角度,車輛寬度高度車速等等,浮點型float)

Output:

(1)BandingBox左上右下的坐標位置(浮點型float)

(2)Type類型:人,車,…,… (整型int)

(3)執行度:是指判別目標物為某種類型的比率。

比如為人,車,…,…的比率。(浮點型float)

(4)需要遮擋目標區域的左上右下的坐標位置(浮點型float)

(5)攝像頭與目標物距離 (浮點型float)

(6)帶有3D-BangdingBox各種算法自動化性能參數分析

(浮點型float,整型int,字符型char)

(7)帶有3D-BangdingBox各種算法自動化性能參數和視頻存儲

(浮點型float,整型int,字符型char,RGB,YUV,MP4等)

1. 功能定義

1)開發帶有3D-BangdingBox各種算法自動化性能參數分析

2)帶有3D-BangdingBox各種算法自動化性能參數和視頻存儲

3)實時視頻顯示帶有3D-BangdingBox各種算法的運行狀況。

4)可以實時存儲帶有3D-BangdingBox各種算法的性能參數和視頻。

5)優化算法和定點化程序,減少算力,集成到嵌入式或FPGA上

 

 

 

 

圖1. 行人和車輛檢測與跟蹤(左:2D-BangdingBox,右:3D-BangdingBox)

2. 技術路線方案

針對自主駕駛場景中的高精度三維目標檢測。文章提出了多視圖三維網絡(mv3d),一個以激光點雲與RGB圖像作為輸入去預測定向的三維bounding box的融合框架。論文編碼稀疏的三維點雲數據用緊湊的多視圖表示。網絡是由兩個子網絡組成:一個是三維目標區域提名網絡,另一個用於多視圖特征融合。區域提名網絡從鳥瞰視圖中生成有效地3D點雲數據表示的3D侯選框。文章設計了一個深度融合方案,結合多視角的區域特征,並能夠作用於不同路徑的中間層之間。采用KITTI基准作為實驗測試,測試表明,這個方法在三維定位任務、三維檢測任務上優於目前最先進記錄大約25%和30%的准確率。此外,對於2D檢測,在激光雷達為基礎的難例數據上,該方法比目前最領先的方法獲得14.9%更高的准確率。

在文章中,提出了一個以多模態數據作為輸入的多視圖三維物體檢測網絡(mv3d),預測物體在三維空間中的全3D的程度。利用多模態信息的主要思想是完成區域特征融合。首先,文章提出了一個多視圖的編碼方案,以獲得對稀疏3D點雲更有效和緊湊的表達。如圖194所示,多視圖三維檢測網絡由兩部分組成:三維區域提名網絡和基於區域提名的融合網絡。3D區域提名網絡利用鳥瞰視角的點雲表示去產生高度精確的3D候選框。3D物體區域提名的好處是,它可以在3D空間中被投影到任何視圖中。多視圖融合網絡從多視角中通過投影3D區域來提取域特征到特征圖上。我們設計了一個深度融合的方法能夠作用於不同視角的中間層。結合下降路徑訓練和輔助損失,該方法相比於早期/晚期融合方案表現出優異的成績。根據多視圖特征表示,在三維空間中,網絡執行定向的3D框回歸來預測物體准確的三維位置,大小和方向。

 

 

圖2. 三維目標檢測架構圖

mv3d網絡以多視圖中的三維點雲以及圖像作為輸入。它首先從鳥瞰圖和經過區域表達的深度的多視圖融合特征中生成3D候選區域。融合的特征用於分類和定向的三維bounding box回歸。

鳥瞰圖表示:

鳥瞰表達被編碼成高度,強度和密度信息。我們離散投影的點雲到分辨率為0.1米的二維網格中。對每一個單元格,高度特征被計算為該單元格的最大高度點。要編碼更詳細的高度信息,點雲平分成M片(這里的切片應該是將整個二維網格進行高度划分)。每個切片都進行高度圖計算,因此,我們得到M個高度圖。強度特征是每個單元格中有最大高度的點的映射值。點雲密度表示每個單元格中的點的數目。為了歸一化特征,它被計算為MIN(1,log(N+1)/log(64));其中N是在單元格中的點的數目。注意,強度和密度特征計算的是整個點雲,而高度特征計算的是M切片,所以,總的鳥瞰圖被編碼為(M + 2)個通道的特征。

前視圖表示:

前視圖表示對鳥瞰圖表示提供了互補的信息。由於激光雷達點雲是非常稀疏的,投影到圖像平面會導致在一個稀疏的二維點地圖。相反,我們把它投射到一個圓柱體平面上,以產生一個密集的前視圖地圖。給定一個三維點P =(x,y,z),其坐標Pfv=(r,c)在前視圖中可以通過下式計算得出:

c=atan2(y,x)/ ∆θ

r=atan2(z,sqrt(x*x+y*y))/ ∆φ

其中,∆θ和 ∆φ分別是激光束的水平和垂直分辨率。我們編碼前視圖使用三個通道的特征,就是高度,距離和強度。

目前2D目標檢測中,區域提名網絡已經成為最高水平網絡的關鍵,文章設計了一個網絡產生3D候選區域。我們使用鳥瞰圖作為輸入。在3D物體檢測中,鳥瞰圖相比於前視圖/圖像平面有幾個優點。首先,物體投射到鳥瞰圖時,保持了物體的物理尺寸,從而具有較小的尺寸方差,這在前視圖/圖像平面的情況下不具備的。第二,在鳥瞰圖中,物體占據不同的空間,從而避免遮擋問題。第三、在道路場景中,由於目標通常位於地面平面上,並在垂直位置的方差較小,鳥瞰圖定位在獲得准確的3Dboundingbox是很重要的。因此,使用鳥瞰圖作為輸入,可以確保3D位置預測更可行。

給出一個鳥瞰圖,網絡生成3D候選框。每個3D框的參數有(X,Y,Z,L,W,H),表示在激光雷達坐標系中3D侯選框的中心和尺寸(米)。對於每個3D前置框,相應的鳥瞰錨(Xbv,Ybv、Lbv、Wbv)可以通過離散的(X,Y,L,W)獲取。我們設計N個3D前置框通過在訓練集的地面真實目標大小聚類獲得。在機動車檢測的情況下,前置框(L,W)的值分別為{(3.9,1.6),(1.0,0.6)},和高度h是固定值1.56米。通過旋轉鳥瞰錨90度(圍着錨x,y的坐標中心),可以得到n= 4個前置框。(x,y)為鳥視圖特征圖中的坐標,Z可以根據攝像機高度和物體高度來計算。在區域產生中不做方向回歸,而把它留給下一個預測階段。3D框的方向限制在{ 0◦,90◦},這是接近實際的取向大部分道路場景中的物體。這種簡化使回歸訓練更容易。

采用0.1米的離散分辨率,目標框在鳥瞰中僅占5∼40個像素點(最大約相當於0.015米)。檢測這些非常小的物體仍然是一個困難的問題。一種可能的解決方案是使用更高的分辨率的輸入,然而,將需要更多的計算。我們選擇特征圖上進行上采樣操作。我們用2倍的雙線性上采樣操作在網絡的最后一個卷積層后。前端卷積層中只進行3次池化運算,即8倍的下采樣。因此,結合2倍的反卷積操作,特征圖被送到區域提名網絡時只有相對於鳥瞰圖輸入的4倍下采樣后的圖。

我們做3D框回歸通過回歸到t = (∆x,∆y,∆z,∆l,∆w,∆h)中,類似於2D目標檢測中的RPN網絡。(∆x,∆y,∆z) 是錨中心歸一化的偏移量,(∆l,∆w,∆h) 由∆s = log(Sgt/Sanchor),s ∈ {l,w,h}.計算得出。我們使用多任務損失函數做物體分類/背景分類和3D框回歸。我們采用分類熵做物體分類損失和光滑L1做3D框回歸損失。背景錨可以忽略。當錨與真實目標邊框重疊超過0.7時,我們認為是正樣本,低於0.5認為是負樣本,中間的我們忽略不計。

由於激光雷達點雲稀疏,會導致許多空錨,我們在訓練和測試中刪除所有的空錨,以減少計算。可以通過計算點占用圖上的積分圖像來實現。

對於每個非空錨在每個位置的最后一個卷積特征圖,網絡生成一個3D框。為了減少冗余,我們應用非最大抑制(NMS)的鳥瞰框,論文沒有使用3D非極大值抑制。使用交並比閾值為0.7在非極大值抑制中。前2000框保存在訓練期間,而在測試中,我們只使用300框。

設計了一個基於區域的融合網絡,有效地結合從多個視圖的特征,共同做候選區域分類和做定向3D框回歸。

由於從不同的視圖/方式的特征圖通常有不同的分辨率,我們采用ROI池化為每個視圖以獲得相同長度的特征向量。給定生成的3D候選區域,我們可以將它們投射到三維空間中的任何視圖中,論文映射到3個視圖中,鳥瞰圖(BV),前視圖(FV),和圖像平面(RGB)。給出一個3D區域,我們可以獲取ROI通過:

 

 

其中,T3D→v表示從激光雷達坐標系到鳥瞰圖、前視圖,和圖像平面的轉換函數,給定一個輸入特征圖x從每個視圖的前端網絡,我們獲得固定長度的特征通過ROI池化:

 

 

深度融合,要結合信息從不同的特征圖,我們采用了深度融合的方法,融合不同層的多視圖特征。深融合網絡和早期/晚期融合網絡的體系結構的比較如下圖所示:

 

 

圖3. 圖像融合示意圖

我們設計了以下深融合過程:

 

 

多視圖網絡融合特征后,我們在3D區域中回歸3D框的方向。特別是,回歸的目標是3D框的8個角:T =(∆x0,···,∆x7,∆Y0,···∆Y7,∆Z0,···,∆Z7)。該參數被編碼為由候選框的對角線長度歸一化后的偏移量。盡管這樣的24-D向量表示三維框是冗余的,但是我們發現這種編碼方法優於中心和大小的編碼方法。請注意,3D框回歸不同於回歸軸對齊的3D框。在模型中,物體的方向可以從預測的3D框角進行計算。我們使用多任務損失共同預測物體類別和3D框方向。在區域網絡中,類別損失使用交叉熵和3D框損失使用平滑L1。除了上述正負樣本設定和非極大值抑制閾值的設定,我們還使用交並比閾值0.05去除多余的盒子,確保鳥瞰中的物體不會占據同一空間。

我們采用兩種方法去規范基於區域的融合網絡:下降路徑訓練[ 13 ]和輔助損失。對於每次迭代,我們隨機選擇做全局下降路徑或局部下降路徑的概率為50%。如果選擇全局下降路徑,我們從三視圖中相同概率中選擇一個視圖。如果選擇局部下降路徑,每個連接節點的路徑輸入隨機丟棄的概率為50%。我們確保每個連接節點至少保留一個輸入路徑。為了進一步加強每個視圖的表示能力,我們在網絡中添加輔助路徑和損失。如下圖所示,輔助路徑與主網絡的層數相同。輔助路徑中的每一層與主網絡中的相應層共享權重。我們使用相同的多任務損失,即分類損失加3D框回歸損失,反向傳播每個輔助路徑。計算所有損失中包括輔助損失。推理過程中刪除輔助路徑。

3. 關鍵技術參數和性能指標

 

 

圖4. 3D多視圖原理示意圖

在多視圖網絡中,每個視圖具有相同的網絡結構。基礎網絡是建立在VGG16下進行修改的:

•渠道減少到原來的網絡的一半。

•為了處理特別小的物體,我們使用特征粗略估計以獲得高分辨率的特征圖。特別是,我們插入一個2倍雙線性上采樣層在最后一層卷積特征圖輸入到三維區域網絡之前。同樣,我們插入4倍/4倍 /2倍上采樣層在BV / Fv/RGB分支的ROI池化層之前。

•我們刪除原VGG網絡中第四個池化操作,因此網絡卷積部分進行8倍的下采樣。

•在多視角融合網絡中,我們添加一個額外的全連接層FC8在原有的FC6、FC7層基礎上。

初始化參數由通過imagenet訓練的vgg16網絡。盡管網絡有三個分支,但是參數的個數是75%的vgg16網絡。一個圖像網絡的運行時間是在泰坦X上0.7s。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM