論文地址:https://arxiv.org/abs/1901.02970
github鏈接:https://github.com/hughw19/NOCS_CVPR2019
類別級6D物體位姿和尺寸估計的標准化物體坐標空間
簡介
本文的目標是估計RGB-D圖像中從未見過的物體實例的6D位姿和尺寸。與“實例級”6D位姿估計任務相反,作者假設在訓練或測試期間沒有精確的CAD模型可用。為了處理給定類別中不同的和從未見過的物體實例,作者引入了標准化物體坐標空間(簡稱NOCS),即同一個類別中的所有物體實例使用一個共享的標准模型來表示。然后,通過訓練神經網絡來推斷觀察到的像素與共享標准模型的對應關系以及其他信息,例如類別標簽和mask。通過將預測圖像與深度圖相結合,共同估計雜亂場景中多個物體的6D位姿和尺寸。為了訓練網絡,作者提出了一種新的上下文感知技術來生成大量帶注釋的混合現實數據。為了進一步改進模型並評估它在真實數據上的性能,作者還提供了一個完全注釋的真實場景下的數據集。大量實驗表明,該方法能夠魯棒地估計真實場景中從未見過物體的位姿和大小。
問題的提出
位姿估計的現有方法中SSD-6D、latent霍夫投票、BB8、YOLO-6D和poseCNN都預先提供了物體精確的CAD模型及大小,然而從未見過的物體是沒有CAD模型的。在三維目標檢測的論文中不需要物體的CAD模型就可以估計類別標簽和邊界框。但是三維目標檢測是根據視點估計的,沒有編碼物體的精確方向。這兩種方法都不能對從未見過的物體進行位姿估計。
- 第一個挑戰:找到特定類別物體位姿和尺寸的表示方法。
- 第二個挑戰:缺少訓練和測試數據集。(現有三維目標檢測數據集缺注釋,或者不包含桌面級物體類別)
創新點
- 作者使用一個共享的標准坐標空間(NOCS)作為參考系來表示同一類別中的所有物體實例。
- 提出一個可以同時預測物體類別標簽、mask和NOCS圖的CNN,將NOCS圖與深度圖進行對應來估計從未見過物體的位姿和大小。
- 使用空間上下文感知的混合現實方法來自動生成大量數據用來訓練和測試。
圖1 作者的方法進行位姿估計
核心思想
作者定義了一個共享的標准坐標空間,可以為從未見過的物體定義位姿和尺寸。標准物體坐標空間是包含在單位立方體中的三維空間。對於給定的物體類別,作者將物體實例放到NOCS中標准化(相當於所有相機都使用同一個模型,將中心和方向對齊后進行縮放來表示)。作者通過NOCS在RGB圖像上的投影訓練作者的網絡。在測試時,網絡回歸NOCS圖,然后將其與深度圖一起用於6D位姿和尺寸估計。
圖2 標准物體坐標空間
數據集
因為現有的三維目標檢測數據集NYU v2 和SUN RGB-D只關注三維邊界框,無法獲得6D位姿和大小的ground truth。作者提出空間上下文感知的混合現實方法來自動生成大量數據用來訓練和測試。選取31個真實的室內場景共553張圖像,從ShapeNetCore數據集中挑選了6種物體:瓶子、碗、相機、罐子、筆記本電腦和杯子。作者還創建了一個干擾物類別,由上面沒有列出的類別中的物體類別組成,如顯視器、電話和吉他。使場景中存在其他物體,這也提高了對主要類別進行預測的魯棒性。
上下文感知合成:為了提高真實感,作者以上下文感知的方式合成虛擬物體,將物體放在支撐平面上,使用合理的光照。使用平面檢測算法對真實圖像進行像素級平面分割。隨后,在分割平面上隨機采樣位置和方向。然后放置幾個虛擬光源來模擬真實的室內照明條件。最后,將渲染圖像和真實圖像結合起來,生成一個具有ground truth NOCS圖、mask和類別標簽的合成圖。作者總共渲染了30萬張圖片。
圖3 合成圖像
為了評估在真實世界下的性能,作者提供了真實場景下的數據集,並提出一種自動標注ground truth物體位姿和大小的方法。(但是作者沒有說真實場景中的NOCS圖的ground truth是怎么得到的)
模型
作者的網絡結構是基於Mask R-CNN框架構建的,增加了預測NOCS圖的分支。RGB圖和深度圖作為輸入,CNN通過RGB圖預測物體的類別標簽、mask和NOCS圖,之后將NOCS圖與深度圖進行擬合得到物體的6D位姿和大小(作者在CNN中沒有使用深度圖,因為作者使用COCO數據集來提高網絡的魯棒性,而COCO不包含深度圖)。
圖4 網絡結構
作者增加的分支分別預測NOCS圖的x、y、z坐標,通過回歸每個像素值或者離散化像素值,把它當做一個分類問題。實驗表明,圖4中B=32的像素分類比直接回歸更好。
圖5 NOCS分支
損失函數
網絡中的類別、邊界框和mask使用的損失函數與Mask R-CNN相同,NOCS部分作者使用了兩個損失函數:一個標准的softmax用於分類,另一個softL1函數用於回歸。
其中y是ground truth NOCS圖像素值,y*是預測的NOCS圖像素值,n為感興趣區域內的mask像素個數。
6D位姿和尺寸估計
作者的目標是通過使用NOCS圖和深度圖來估計被檢測物體的6D位姿和大小。為此,作者使用RGB-D相機內參和外參來將深度圖像與彩色圖像對齊,使用預測的物體mask來獲得物體的3D點雲Pm,使用NOCS圖來獲得預測位姿Pn。然后,估計將Pn轉換為Pm的比例、旋轉和平移。對於這個7維剛性變換估計問題,作者使用Umeyama算法,而對於離群點去除,作者使用RANSAC。
實驗和結果
作者使用IoU來評估三維目標檢測和尺寸的估計,使用平均精度來評估平移誤差小於m厘米,旋轉誤差小於n°的物體位姿估計。將目標檢測與位姿估計解耦,將檢測閾值設為10%來保證大部分物體都包含在評估中。因為不知道其他類別級6D位姿和大小估計的方法,所以作者使用Mask RCNN+ICP建立baseline來幫助比較性能。
在合成數據集(CAMERA*)上測試:對於50%的3D IoU,mAP為83.9%,位姿使用(5cm,5°)度量,mAP為40.9%。
圖6 合成測試集的結果
在真實數據集(REAL)上測試:在COCO的弱監督下,使用CAMERA* 與REAL* 共同訓練網絡,並在真實世界的測試集中對其進行評估。由於COCO沒有ground truth NOCS圖,在訓練中不使用NOCS損失。為了平衡這些數據集,作者從三個數據源中為每個小批次選擇圖像,CAMERA* 的概率為60%,COCO 為20%,REAL*為20%。對於50%的3D IoU, mAP為76.4%,位姿使用(5cm,5°),mAP為10.2%,使用(5cm,10°) ,mAP為23.1%。相比之下,baseline在50%的3D IoU時,mAP為43.8%,而(5cm,5°)和(5cm,10°)的mAP為0.8%,明顯低於本文的性能。
圖7 真實測試集的結果
作者還創建了一個CAMERA* 的變體,其中圖像是以非上下文感知的方式合成的(在表中由B表示)。如表中所示,僅在REAL* 或REAL* 和COCO上進行培訓,由於數據集較小,會產生過擬合。CAMERA* 與COCO和REAL* 一起進行訓練,可以獲得最佳效果。
作者給出了5個不同指標的AP,其中3D25和3D25分別代表25%和50%的3D IoU。
作者還與PoseCNN進行了比較。使用2D重投影誤差(測量ground truth和估計目標位姿之間的平均像素距離小於5個像素),作者的方法2D重投影誤差的mAP為30.2%。PoseCNN 2D重投影誤差的mAP為17.2%。
圖8 與最新的方法效果對比
不足
存在缺失檢測、錯誤分類和預測坐標圖不一致。
圖9 錯誤估計
歡迎關注和轉載!