一、簡介
從2D圖像估計深度是場景重建和理解任務的關鍵步驟,例如3D目標檢測和分割。基於單目圖像獲得深度信息被定義為MDE問題(Monocular Depth Estimation)。
二、參考文獻與資料
參考論文:
1、Deep Ordinal Regression Network for Monocular Depth Estimation(CVPR, 2018)
2、MonoGRNet: A Geometric Reasoning Network for Monocular 3D Object Localization(AAAI,2019 oral)
參考文章:
1、https://blog.csdn.net/kingsleyluoxin/article/details/82377902
2、https://cloud.tencent.com/developer/article/1399535
3、https://blog.csdn.net/qq_26697045/article/details/84796815
參考代碼:
1、https://github.com/hufu6371/DORN
2、https://github.com/Zengyi-Qin/MonoGRNet
三、概覽
深度估計問題在計算機視覺領域屬於3-D重建的一部分,即Shape from X。這個X包括stereo, multiple view stereo, silhouette, motion (SfM, SLAM), focusing, hazing, shading, occlusion, texture, vanishing points, ...前面5個都是多圖像的輸入,從空間幾何,時域變換和焦距變化的關系推導深度距離。剩下的都是單目的輸入。
深度估計可以用於3D建模、場景理解、深度感知(depth-aware)的圖像合成等領域。
基於深度學習的單目估計依據是像素值關系反映深度關系,方法是擬合一個函數把圖像映射成深度圖:。從得出的深度圖輪廓和不斷提高的實驗結果可以看出,的確可以用一個這樣的函數從像素值中恢復出相對深度值。
如果把圖像模糊度建模,根據圖像邊緣模糊的響應模型,那么單目圖像也能估算深度,即shape from defocusing。
現有的單目深度估計方法通常利用單一視角的圖像數據作為輸入,直接預測圖像中每個像素對應的深度值,這種解決方案導致現有方法通常需要大量的深度標注數據,而這類數據通常需要較高的采集成本。所以最新的深度估計大量采用無監督學習進行MDE
四、網絡結構
網絡由密集特征提取器, 多尺度特征學習器(ASPP),cross channel信息學習器, 全圖像編碼,和序數回歸(ordinary regression)組成
1、密集特征提取器
傳統的DCNN包含不斷重復的maxpooling和striding 極大的減少了特征圖像的分辨率,本文刪除了DCNN最后的pooling層,並且隨后使用了空洞卷積,從而在不降低空間分辨率或者增加參數數量的情況下增加了感受野
2、場景理解模塊
包含三個部分,aspp, cross channel ,全圖像編碼。
ASPP:
網絡中的 ASPP部分采用不同擴張系數(6,12,18)的擴張卷積操作,能夠在不改變圖像分辨率的前提下,有效得到不同感受野大小的卷積操作,進而得到多尺度融合特征。為了得到多尺度特征,采用上述的ASPP模塊,該模塊是將傳統的特征提取網絡中的壓縮網絡的部分變成了多尺度的擴張卷積操作,進而得到不同尺度的特征,用來表征不同大小區域的圖像特征
1*1卷積能夠學習復雜的cross channel信息
全圖像編碼能夠獲得全局的上下文信息
傳統的方法采用全聯接層獲得上下文信息。這里提出的全圖像編碼包含了更少的參數傳統的場景理解(上)采用全連接層,FC的每個元素與特征圖中的所有像素相連接,以期得到全局的圖像特征,再通過全連接層的操作還原成圖像。本文采用的方法,首先通過一個核為k的池化層,得到一個池化之后的特征圖,利用這個特征圖,全連接層得到C個元素,將C個元素看作1x1xC 的特征圖,運用1*1的卷積得到混合C個通道的特征,然后將這個特征復制得到新的生成的 WxHxC 的特征。
(channel attention?)
結果:
五、3D目標檢測中的深度估計(MonoGRNet)
問題:存在於物體中的像素比背景中的像素少得多,因此在深度估計中效果好的算法,並不能保證對車輛的深度估計是准確的
這里將語義信息與幾何信息融合,實現實例深度估計網絡Instance Depth Estimatiob(IDE)。
IDE估計3D框中心的深度值
Early feature 提供了全局特征(加入了低層信息),使用early feature計算了全局的深度
deep feature經過ROI-align 能夠獲得檢測物體的精細信息,此處的feature 融合了所有的深度特征。
六、討論