RGB-D相機視覺SLAM


RGB-D相機視覺SLAM

Dense Visual SLAM for RGB-D Cameras

開源代碼地址:  vision.in.tum.de/data/software/dvo

摘要

本文提出了一種用於RGB-D相機的稠密視覺SLAM方法,該方法可以使所有像素上的光度誤差和深度誤差最小化。與稀疏的、基於特征的方法相比,能夠更好地利用圖像數據中的可用信息,從而提高姿態精度。提出了一種基於熵的相似性度量方法,用於關鍵幀選擇和環路閉合檢測。從所有成功的匹配中,構建了一個使用g2o框架進行優化的圖。在公開的基准數據集上對進行了廣泛的評估,在低紋理和低結構的場景中表現良好。與幾種最先進的方法直接比較,本方法產生的軌跡誤差大大降低。代碼開源。

主要創新點:

本文的主要貢獻有:             

•一種快速的幀間配准方法,可優化強度和深度誤差,             

•基於熵的關鍵幀選擇方法,顯著減少了漂移,             

•基於相同熵度量驗證循環閉包的方法,以及             

•將上述所有技術集成到一個通用的圖形SLAM解算器中,進一步減少漂移。

 

 本文目標是僅從攝像機的圖像流來估計攝像機的運動。在每個時間步t,相機提供RGB-D圖像,包括強度圖像It和相應的深度貼圖Zt。給定兩個連續時間步的RGB-D圖像,要計算相機的剛體運動g。圖2說明了這個想法。

 

 選擇了測量近鄰搜索,在空間受限的室內環境中操作,而且視覺里程計非常精確。在一個圍繞關鍵幀位置具有預定半徑的球體中搜索循環閉合候選者。在粗分辨率下,計算每個候選幀的兩個關鍵幀和相關協方差矩陣之間的相對變換。為了驗證候選者,采用與關鍵幀選擇相同的熵比測試。使用中間幀到關鍵幀的所有成功匹配的平均熵,而不是第一幀到關鍵幀H(ζk:k+1)的轉換熵。這一標准背后的直覺是,中間幀在空間和時間上最接近於關鍵幀,在此可獲得具有最低不確定性的最佳可能注冊結果。如果從低分辨率圖像獲得的參數估計值通過測試,也使用更高分辨率計算改進的估計值。最后,應用相同的熵比檢驗。如果這個測試也成功了,就在圖中插入一個帶有相對位姿約束的新邊。圖3顯示,當相機返回到捕捉到第50幀的附近(第420450幀)時,熵比再次增大。此外,圖3顯示,高熵比與估計中的低誤差相符。

 

 使用慕尼黑技術大學提供的RGB-D基准進行評估[10]。基准包含用RGB-D相機捕獲的多個真實數據集。每個數據集都伴隨着一個由外部運動捕獲系統獲得的精確的地面真值軌跡。在第一組實驗中,評估了組合光度和幾何誤差最小化的好處。具有不同數量的紋理和結構的RGB-D數據集適合於此目的。圖4顯示了不同數據集的代表性圖像。表一顯示了實驗結果。前兩列指示數據集是否包含結構/紋理(x)或不包含(-)。第三列顯示相機到場景的定性距離。最后三列顯示了RGBonly、depth only和combined三種不同估計方法的平移漂移(RPE)的均方根誤差(RMSE),單位為m/s。與僅深度變量相比,僅RGB的里程計在具有紋理的無結構場景中效果更好,反之亦然。在這些數據集上,組合變量的性能優於這兩種方法。但是,在具有結構和紋理的數據集上,組合RGB和深度odometry的性能略低於僅RGB的odometry。盡管如此,它在不同場景類型上顯示了更好的泛化。深度項也有助於在由於自動曝光而導致強度突然變化的情況下穩定估計值。

 

 本方法與最新的視覺SLAM方法進行比較,即RGB-D SLAM系統[2]、[31]、多分辨率surfel映射(MRSMap)[11]和KinectFusion的PCL實現(KinFu)[5]。表三總結了結果。第一列包含數據集名稱,第二列顯示系統創建的關鍵幀數。以下各列顯示了本系統、RGB-D SLAM、MRSMap和KinectFusion的絕對軌跡誤差的RMSE。本系統在八個數據集中表現最好,所有系統的結果都是可用的。三個方面與最佳系統的區別其他數據集較小。內部沖突在長而復雜的軌道上,例如fr1/房間、fr1/teddy,比其他系統的改進是顯著的。

 

 表二:所有freiburg1數據集的平移漂移(RPE)RMSE(m/s),幀間、幀間和幀間里程計,以及姿勢圖優化。注意(v)標記沒有公共基礎的驗證數據集,本文使用在線工具評估了這些數據集。與逐幀里程計相比,使用關鍵幀可將性能提高16%。位姿圖優化進一步減小了漂移,平均提高了20%。

 

 表三:與三個最先進的系統相比,本文視覺SLAM系統的絕對軌跡誤差(m)的RMSE。第二列顯示系統使用的關鍵幀數。本系統對大多數數據集的性能最好。尤其要注意對具有長而復雜軌跡的數據集(如fr1/房間、fr1/teddy)的改進。

在一台采用英特爾酷睿i7-2600處理器、3.40GHz和16GB內存的PC機上進行了所有實驗。視覺里程計和SLAM組件在不同的線程中運行。幀到關鍵幀的跟蹤時間在32ms左右幾乎是恆定的,循環閉合檢測和優化的時間取決於圖中關鍵幀和邊的數量。此地圖更新的平均處理時間為135ms。在運動估計的粗到精優化中,本文使用三種不同的圖像分辨率,最高可達320×240像素。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM