Learning Rich Features from RGB-D Images for Object Detection and Segmentation論文筆記


相關工作:

將R-CNN推廣到RGB-D圖像,引入一種新的編碼方式來捕獲圖像中像素的地心姿態,並且這種新的編碼方式比單純使用深度通道有了明顯的改進。

我們建議在每個像素上用三個通道編碼深度圖像:水平視差、離地高度、像素局部表面法向量和重力方向的夾角(HHA,horizontal disparity, height above ground, and the angle the pixel`s, local surface normal makes with the inferred gravity direction)。所有通道都線性縮放,將訓練數據集上的觀測值映射到0-255的范圍。

 

CNN不太可能自動學習直接從深度圖像中計算這些屬性,特別是當可用數據集非常有限時。我們的假設是,在我們的HHA地心圖中和RGB圖之間有足夠的共同結構,為RGB圖設計的網絡也可以學習HHA圖像的合適表示。例如,視差中的邊緣和法向量與重力方向的夾角對應有趣的物體邊界(內部或外部邊界),類似與RGB中的邊界(但可能更干凈)。

實驗設置:

1、微調卷積神經網絡(CNN)用於特征學習

2、訓練線性SVMs用於OP(object proposal)分類

1、Finetuning

RCNN基於caffe

在ILSRC 2012數據集上訓練

初始學習率0.001,沒20k次迭代減少10倍,Nvidia Titan大約需要7個小時

把每一個訓練示例標記為具有最大重疊的真實示例的類別,並且這個重疊大於0.5,否則標記為background。所有的微調都是在訓練機上完成的。

2、SVM Training

在pool5和fc6或者fc7計算特征,把真實值框內的目標類被稱為正例,與真實值實例交集小於0.3的稱為反例。

SVM超參數C= 0.001, B = 10, w1 = 2.0

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM