相關工作:
將R-CNN推廣到RGB-D圖像,引入一種新的編碼方式來捕獲圖像中像素的地心姿態,並且這種新的編碼方式比單純使用深度通道有了明顯的改進。
我們建議在每個像素上用三個通道編碼深度圖像:水平視差、離地高度、像素局部表面法向量和重力方向的夾角(HHA,horizontal disparity, height above ground, and the angle the pixel`s, local surface normal makes with the inferred gravity direction)。所有通道都線性縮放,將訓練數據集上的觀測值映射到0-255的范圍。
CNN不太可能自動學習直接從深度圖像中計算這些屬性,特別是當可用數據集非常有限時。我們的假設是,在我們的HHA地心圖中和RGB圖之間有足夠的共同結構,為RGB圖設計的網絡也可以學習HHA圖像的合適表示。例如,視差中的邊緣和法向量與重力方向的夾角對應有趣的物體邊界(內部或外部邊界),類似與RGB中的邊界(但可能更干凈)。
實驗設置:
1、微調卷積神經網絡(CNN)用於特征學習
2、訓練線性SVMs用於OP(object proposal)分類
1、Finetuning
RCNN基於caffe
在ILSRC 2012數據集上訓練
初始學習率0.001,沒20k次迭代減少10倍,Nvidia Titan大約需要7個小時
把每一個訓練示例標記為具有最大重疊的真實示例的類別,並且這個重疊大於0.5,否則標記為background。所有的微調都是在訓練機上完成的。
2、SVM Training
在pool5和fc6或者fc7計算特征,把真實值框內的目標類被稱為正例,與真實值實例交集小於0.3的稱為反例。
SVM超參數C= 0.001, B = 10, w1 = 2.0
