博客轉載自:https://blog.csdn.net/u010821666/article/details/78793225 原文標題:深度學習結合SLAM的研究思路/成果整理之
1. 深度學習跟SLAM的結合點
深度學習和slam的結合是近幾年比較熱的一個研究方向,具體的研究方向,我簡單分為三塊,如下。
1.1 深度學習結合SLAM的三個方向
用深度學習方法替換傳統SLAM中的一個/幾個模塊
- 特征提取,特征匹配,提高特征點穩定性,提取點線面等不同層級的特征點。
- 深度估計
- 位姿估計
- 重定位
- 其他
在傳統SLAM之上加入語義信息
- 圖像語義分割
- 語義地圖構建
端到端的SLAM
其實端到端就不能算是SLAM問題了吧,SLAM是同步定位與地圖構建,端到端是輸入image輸出action,沒有定位和建圖。
- 機器人自主導航(深度強化學習)等
1.2 相關的部分論文整理
1.2.1 用深度學習方法替換傳統SLAM中的一個/幾個模塊。
替換多個模塊
- Tateno K, Tombari F, Laina I, et al. CNN-SLAM: Real-time dense monocular SLAM with learned depth prediction[J]. arXiv preprint arXiv:1704.03489, 2017.
* 在有預測深度下的實時單目稠密SLAM*
(輸入:彩色圖 LSD-SLAM NYUDv2數據集 ICL-NUIM數據集)
摘要:
基於使用卷積神經網絡CNN進行深度預測的最新進展,本文研究了深度神經網絡生成的深度預測地圖,如何用於精確而稠密的重建,我們提出了一種直接法單目SLAM中得到的深度度量,如何與CNN預測得到的稠密深度地圖自然地融合在一起的方法。我們的融合方法在圖像定位這一單目SLAM方法效果不佳的方面有優勢。比如說低紋理區域,反之亦然。我們證明了深度預測在估計重建的絕對尺度中應用可以克服單目SLAM的主要限制。最后,我們提出了高效融合稠密SLAM中單幀得到的語義標簽的方法 ,從單視角中得到了語義連貫的場景重建。基於兩個參照數據集的評測結果表明我們的方法有良好的魯棒性和准確性。
注:
NYUDv2數據集 數據集下載鏈接
用於室內場景語義分割的RGB-D圖像數據集,來自Kinect,1449對已標注的RGB-Depth圖像,40萬張未標注圖像。
ICL-NUIM數據集 數據集下載鏈接
包含兩個場景的圖像:起居室和辦公室 與TUM RGB-D 數據集的評測工具兼容。幀率30,每段大概幾十秒,所以一共幾千張圖吧。
- Li R, Wang S, Long Z, et al. UnDeepVO: Monocular Visual Odometry through Unsupervised Deep Learning[J]. arXiv preprint arXiv:1709.06841, 2017.
UnDeepVO:使用無監督深度學習的單目視覺里程計
(雙目圖像訓練數據集 單目圖像測試 KITTI數據集)
摘要:
我們在本文中提出了一種名叫UnDeepVO的新型的單目視覺里程計系統,UnDeepVO可以估計單目相機的6自由度位姿以及使用深度神經網絡估計單目視角的深度。UnDeepVO有兩個顯著的特性:一個是無監督深度學習方法,另一個是絕對尺度回復。特別的,我們使用了雙目的圖像對訓練UnDeepVO來恢復尺度,然后使用連續的單目圖像進行了測試。因此,UnDeepVO是一個單目系統。訓練網絡的損失函數是基於時間和空間稠密信息定義的。圖一是系統的概覽圖。基於KITTI數據集的實驗表明UnDeepVO在位姿估計方面,准確性高於其他的單目VO方法。
特征相關(特征提取匹配等)
- DeTone D, Malisiewicz T, Rabinovich A. Toward Geometric Deep SLAM[J]. arXiv preprint arXiv:1707.07410, 2017.
面向幾何的深度SLAM
(兩個CNN,角點提取和匹配 ,實時,單核CPU30FPS)
摘要:
我們展示了一個使用了兩個深度卷積神經網絡的點跟蹤系統。第一個網絡,MagicPoint,提取單張圖像的顯著性2D點。這些提取出來的點可以用作SLAM,因為他們在圖像中相互獨立且均勻分布。我們比較了這個網絡和傳統的點檢測方法,發現兩者在圖像有噪聲存在是存在明顯的性能差異。當檢測點是幾何穩定的時候,轉換估計會變得更簡單,我們設計了第二個網絡,名為MagicWarp,它對MagicPoint的輸出,一系列點圖像對進行操作,然后估計跟輸入有關的單應性。這種轉換引擎和傳統方法的不同在於它只是用點的定位,而沒有使用局部點的描述子。兩個網絡都使用了簡單的合成數據進行訓練,不需要安規的外部相機建立ground truth和先進的圖形渲染流水線。系統速度快且輕量級,可以在單核CPU上達到30幀每秒的速度。
- Lecun Y. Stereo matching by training a convolutional neural network to compare image patches[M]. JMLR.org, 2016.
通過訓練比較圖像塊的卷積神經網絡進行立體匹配
(輸入:左右圖 KITTI數據集 Middlebury數據集)
摘要:
我們提出了一種從已校正過的圖像對中提取深度信息的方法。我們的方法側重於大多數stereo算法的第一步:匹配開銷計算。我們通過使用卷積神經網絡從小圖像塊中學習相似性度量來解決這個問題。訓練采用有監督方式,使用相似和不相似的成對圖像塊構建了一個二分類數據集。我們研究了用於此項任務的兩種網絡架構:一個針對速度進行調整,另一個針對精度。卷積神經網絡的輸出被用來初始化stereo立體匹配開銷。在這之后,進行一系列后處理操作:基於交叉的開銷聚合,半全局匹配,左右圖一致性檢驗,亞像素增強,中值濾波和雙邊濾波。我們在KITTI2012,KITTI2015數據集,Middlebury雙目數據集上評測了自己的方法,結果顯示我們的方法優於此三個數據集上的其他同類方法。
注:Middlebury Stereo Datasets
數據集下載鏈接
- Kwang Moo Yi, Eduard Trulls, Vincent Lepetit, et al. LIFT: Learned Invariant Feature Transform[J]. 2016:467-483.
LIFT:通過學習生成的不變特征變換
(比SIFT特征更加稠密,已開源)
摘要:
我們提出了一種新型的深度網絡架構,實現了完整的特征點處理流水線:檢測,方向估計和特征描述。雖然之前的工作已經分別成功地解決了這幾個問題,但我們展示了如何將這三個問題結合起來,通知保持端到端的可微性。我們證明了我們的深度流水線方法,性能優於許多基准數據集的state-of-the-art的方法,且不需要再訓練。


左邊是SIFT,右邊是LIFT
源代碼 https://github.com/cvlab-epfl/LIFT
位姿估計,深度估計
- Clark R, Wang S, Wen H, et al. VINet: Visual-Inertial Odometry as a Sequence-to-Sequence Learning Problem[C]//AAAI. 2017: 3995-4001.
VINet:將視覺-慣性里程計看做一個序列到序列的學習問題(……這個怎么翻)
(使用了圖像和IMU數據,CNN和RNN)
摘要:
本文中我們提出了一種使用視覺和慣性數據做運動估計的,流形上的?序列到序列的學習方法。在中間特征表示這一級別上融合數據的視覺-慣性里程計進行端到端訓練,是我們已知的最好的方法(?)。我們的方法相比傳統方法有很多優勢。具體來說,它不需要相機和IMU數據之間進行冗長乏味的人工同步,也同樣不需要IMU和相機數據之間進行人工標定。另一個優點是我們的模型可以自然且巧妙地結合特定區域的信息,可以顯著減少漂移。在標定數據准確的情況下,我們的方法跟傳統的state-of-the-art的方法效果旗鼓相當,在存在標定和同步誤差的情況下,我們的方法可以通過訓練達到比傳統方法更好的的效果。
- Garg R, Vijay K B G, Carneiro G, et al. Unsupervised CNN for Single View Depth Estimation: Geometry to the Rescue[J]. 2016:740-756.
用於單視角深度估計的無監督CNN:??
(KITTI數據集 無監督學習)
摘要:
當前深度卷積神經網絡的一個顯著缺點就是需要使用大量人工標注的數據來進行訓練。本項研究中,我們提出了一種無監督的框架來使用深度卷積神經網絡進行單視角深度預測,不需要先行訓練和標注過的ground-truth深度。我們通過一種類似於自編碼的方式訓練網絡。訓練過程中,我們認為有着微小且已知的相機運動的源圖像和目的圖像是一個stereo對。我們訓練卷積編碼器來預測源圖像的深度圖。為此,我們顯式構造了一個使用預測深度和已知的視角間位移的目的圖像的inverse warp反變換?,用於重建源圖像。重建過程中的光測誤差是編碼器的重建損失。以這樣的方法獲取訓練數據比同類系統要簡單得多,不需要人工標注和深度傳感器與相機之間的標定。在KITTI數據集上,執行單視角深度估計任務時,我們的網絡,在保證相同性能情況下,訓練時間比其他state-of-the-art的有監督方法少一半。

- Xu J, Ranftl, René, Koltun V. Accurate Optical Flow via Direct Cost Volume Processing[J]. 2017.
光流法不太關注,這個名字也是翻譯不出來…………
英文摘要:
We present an optical flow estimation approach that operates on the full four-dimensional cost volume. This direct
approach shares the structural benefits of leading stereo matching pipelines, which are known to yield high accuracy. To this day, such approaches have been considered impractical due to the size of the cost volume. We show that the full four-dimensional cost volume can be constructed in a fraction of a second due to its regularity. We then exploit this regularity further by adapting semi-global matching to the four-dimensional setting. This yields a pipeline that achieves significantly higher accuracy than state-of-the-art optical flow methods while being faster than most. Our approach outperforms all published general-purpose optical flow methods on both Sintel and KITTI 2015 benchmarks.
- Liao Y, Huang L, Wang Y, et al. Parse Geometry from a Line: Monocular Depth Estimation with Partial Laser Observation[J]. 2017.
一條線上的解析幾何:使用部分激光觀測的單目深度估計
(輸入:單目圖像和2D激光距離數據 NYUDv2數據集 KITTI數據集)
激光的也不太關注。
Abstract— Many standard robotic platforms are equipped with at least a fixed 2D laser range finder and a monocular camera. Although those platforms do not have sensors for 3D depth sensing capability, knowledge of depth is an essential part in many robotics activities. Therefore, recently, there is an increasing interest in depth estimation using monocular images. As this task is inherently ambiguous, the data-driven estimated depth might be unreliable in robotics applications. In this paper, we have attempted to improve the precision of monocular
depth estimation by introducing 2D planar observation from the remaining laser range finder without extra cost. Specifically, we construct a dense reference map from the sparse laser range data, redefining the depth estimation task as estimating the distance between the real and the reference depth. To solve the problem, we construct a novel residual of residual neural network, and tightly combine the classification and regression losses for continuous depth estimation. Experimental results suggest that our method achieves considerable promotion compared to the state-of-the-art methods on both NYUD2 and KITTI, validating the effectiveness of our method on leveraging the additional sensory information. We further demonstrate the potential usage of our method in obstacle avoidance where our methodology provides comprehensive depth information compared to the solution using monocular camera or 2D laser range finder alone。

- Zhou T, Brown M, Snavely N, et al. Unsupervised learning of depth and ego-motion from video[J]. arXiv preprint arXiv:1704.07813, 2017.
視頻深度和自運動的無監督學習 SFM-learner
(訓練使用未標注單目視頻片段,已開源)
摘要:我們提出了一個用非結構化視頻序列進行單目深度和相機運動估計的無監督學習網絡。和最近的幾項研究相同的是,我們使用了端到端的方法,用視圖合成作為監督信號,不同的是,我們的方法是完全無監督的,只需要少量的單目視頻序列即可訓練。我們的方法使用了單視角深度和多視角位姿兩個網絡,使用計算出的深度和位姿將附近視圖變換為目標視圖生成損失函數(?)。因此,訓練過程中網絡通過損失函數連接在一起,但是測試時,兩個網絡可以獨立用於應用。KITTI數據集上的經驗評測證明我們的方法有以下優點:1)與使用ground-truth位姿或深度進行訓練的有監督方法相比,在估計單目深度是效果相當。2)與有可比較輸入設置的現有SLAM系統相比,位姿估計性能良好。
源代碼 https://github.com/tinghuiz/SfMLearner
- Vijayanarasimhan S, Ricco S, Schmid C, et al. SfM-Net: Learning of Structure and Motion from Video[J]. arXiv preprint arXiv:1704.07804, 2017.
SFM-Net:從視頻中學習結構與運動
SfM-Net是SfM-learner的升級版
摘要:
我們提出了SfM-Net,一個geometry-aware幾何敏感?的神經網絡用於視頻中的運動估計,此網絡分解了基於場景和對象深度的幀間像素運動,相機運動,3D對象旋轉和平移。給定一個幀的序列,SfM-Net預測深度,分割,相機和剛體運動,然后將這些轉換為稠密幀間運動場(光流),可微的扭曲幀最后做像素匹配和反向傳播。模型可以通過不同程度的監督方法進行訓練:1)自監督的投影光測誤差(photometric error)(完全無監督)的方式,2)用自運動(相機運動)進行有監督訓練的方式,3)使用深度(比如說RGBD傳感器提供的)進行有監督訓練的方式。SfM-Net提取了有意義的深度估計並成功地估計了幀間的相機運動和評議。它還能在沒有監督信息提供的情況下,成功分割出場景中的運動物體。

- Benjamin Ummenhofer, Huizhong Zhou, Jonas Uhrig, et al. DeMoN: Depth and Motion Network for Learning Monocular Stereo[C]// IEEE Conference on Computer Vision and Pattern Recognition. IEEE Computer Society, 2017:5622-5631.
DeMoN:學習單雙目?深度和運動的網絡
(已開源)
摘要:
本文中我們將運動中的結構公式化並將其作為一個學習問題。我們端到端地訓練了一個卷積網絡用於從連續無約束的圖像對中計算深度和相機運動。整個架構由多層編解碼網絡組成,核心部分是一個可以改進自身預測的迭代網絡。這個網絡不僅估計深度和運動,還可以估計表面法線,圖像之間的光流和匹配的臟新都。基於空間相對差異的損失函數是這個方法中至關重要的組成部分。相比於傳統的從運動中得到兩幀結構的方法,我們的方法更加准確和魯棒。跟流行的從單張圖像獲取深度的網絡不同的是,DeMoN學習了匹配的概念,能夠對訓練過程中看不到的結構更好地泛化。
使用pose, depth作為監督信息,來估計pose和depth。
源代碼 https://github.com/lmb-freiburg/demon
重定位
可能重定位用深度學習比較難做吧,畢竟是個偏幾何的問題,暫時不太關注
- Wu J, Ma L, Hu X. Delving deeper into convolutional neural networks for camera relocalization[C]// IEEE International Conference on Robotics and Automation. IEEE, 2017.
- Alex Kendall, Matthew Grimes, Roberto Cipolla. PoseNet: A Convolutional Network for Real-Time 6-DOF Camera Relocalization[J]. 2015, 31:2938-2946.
PoseNet:用於實時六自由度相機重定位的卷積神經網絡。
PoseNet是2015年的研究成果,算是SLAM跟深度學習結合的比較有開創性的成果。 
源代碼 https://github.com/alexgkendall/caffe-posenet
另有一篇很有意思的論文
- Vo N, Jacobs N, Hays J. Revisiting IM2GPS in the Deep Learning Era[J]. 2017.
深度學習時代圖像-GPS的重定位
思路很有意思,使用一張照片在全世界范圍內進行定位。 
1.2.2 在傳統SLAM之上加入語義信息
圖像語義分割&語義地圖構建
-
Li X, Belaroussi R. Semi-Dense 3D Semantic Mapping from Monocular SLAM[J]. arXiv preprint arXiv:1611.04144, 2016.
單目SLAM的半稠密語義建圖
(LSD-SLAM,室內外場景)
摘要:
將計算機視覺中的幾何與圖像相結合,已經被證明是機器人在各種各樣的應用中的一種很有發展前景的解決方案。stereo相機和RGBD傳感器被廣泛用於實現快速三維重建和密集軌跡跟蹤。然而,它們缺乏不同規模環境無縫切換的靈活性,比如說,室內和室外場景。此外, 在三維建圖中,語義信息仍然很難獲取。我們通過結合state-of-art的深度學習方法和半稠密的基於單目相機視頻流的SLAM,應對此種挑戰。在我們的方法中,二維的語義信息,結合了有空間一致性的相連關鍵幀之間的correspondence對應關系之后,再進行三維建圖。在這里並不需要對一個序列里的每一個關鍵幀進行語義分割,所以計算時間相對合理。我們在室內室外數據集上評測了我們的方法,在通過baseline single frame prediction基准單幀預測實現二維語義標注方面取得了效果的提升。
基本框架圖如下:
輸入RGB圖像->選擇關鍵幀並refine->2D語義分割->3D重建,語義優化
- Sünderhauf N, Pham T T, Latif Y, et al. Meaningful Maps With Object-Oriented Semantic Mapping[J]. 2017.
這個題目怎么翻譯是好?面向對象語義建圖的有意義地圖
(輸入:RGB-D圖像 SSD ORB-SLAM2)
摘要:
智能機器人必須理解它們周圍場景的幾何和語義兩方面的特性,才能跟環境進行有意義地交互。到目前為止,大多數研究已經分別解決了這兩個建圖問題,側重於幾何信息建圖或者是語義信息建圖。在本文中我們解決了,既包含有語義意義和對象級別的實體,也包含基於點或網格的幾何表示的環境地圖構建的問題。我們同時也對已知對象類別中看不到的實例建立了幾何點雲模型,並建立了以這些對象模型為中心實體的地圖。我們的系統利用了稀疏的基於特征的RGB-D SLAM,基於圖像的深度學習目標檢測方法和三維無監督的分割方法。
基本框架圖如下:
輸入RGB-D圖像 -> ORB-SLAM2應用於每一幀,SSD(Single Shot MultiBox Detector)用於每一個關鍵幀進行目標檢測,3D無監督分割方法對於每一個檢測結果生成一個3D點雲分割 -> 使用類似ICP的匹配值方法進行數據關聯,以決定是否在地圖中創建新的對象或者跟已有對象建立檢測上的關聯 -> 地圖對象的3D模型(3D點雲分割,指向ORB-SLAM2中位姿圖的指針,對每個類別的累計置信度)
- Ma L, Stückler J, Kerl C, et al. Multi-View Deep Learning for Consistent Semantic Mapping with RGB-D Cameras[J]. 2017.
基於RGB-D相機和多視角深度學習的一致語義建圖
(NYUDv2數據集 )
摘要:
視覺場景理解是使機器人能夠在環境中進行有目的的行動的一項重要的能力。本文中,我們提出了一種新型的深度神經網絡方法以在RGB-D圖像序列中進行語義分割。主要的創新點在於用一種自監督的方式訓練我們的網絡用於預測多視角一致的語義信息。在測試時,此網絡的基於語義關鍵幀地圖的語義預測,相比單視角圖片訓練出來的網絡上的語義預測,融合的一致性更高。我們的網絡架構基於最新的用於RGB和深度圖像融合的單視角深度學習方法來進行語義風格,並且通過多尺度誤差最小化優化了這一方法的效果。我們使用RGB-D SLAM得到相機軌跡,並且將RGB-D圖像的預測扭曲成ground-truth的標注過的幀,以在訓練期間提高多視角的一致性。(不是很理解)(We obtain the camera trajectory using RGB-D SLAM and warp the predictions of RGB-D images into ground-truth annotated frames in order to enforce multi-view consistency during training.)在測試時,多視角的預測被融合到關鍵幀當中去。我們提出並分析了在訓練和測試過程中提高多視角一致性的方法。我們評價了多視角一致性訓練的優點,並指出,深度特征的池化和多視角的融合,能夠提升基於NYUDv2數據集評價指標的語義分割的性能。我們端到端方式訓練的網絡,在單視角分割和多視角語義融合方面,都取得了在NYUDv2數據集下,state-of-art的效果。
注:NYUDv2數據集 數據集下載鏈接
用於室內場景語義分割的RGB-D圖像數據集,來自Kinect,1449對已標注的RGB-Depth圖像,40萬張未標注圖像。 
- Mccormac J, Handa A, Davison A, et al. SemanticFusion: Dense 3D Semantic Mapping with Convolutional Neural Networks[J]. 2016.
語義融合:使用CNN的稠密3D語義建圖
(NYUDv2數據集 室內場景 實時 )
摘要:
使用視覺傳感進行更魯棒,更准確和細節更豐富的建圖,已經被證明有利於機器人在各種各樣應用中的運用。在接下來的機器人智能和直觀的用戶交互中,地圖需要擴展幾何和外觀信息–它們需要包含語義信息。我們使用卷積神經網絡CNNs和state-of-the-art的稠密SLAM系統,以及提供了即使在多圈掃描軌跡時,也能得到室內RGB-D視頻中幀間的長期稠密correspondence對應關系的ElasticFusion來解決這一問題。這些對應關系使得CNN的多視角語義預測,概率上融合到地圖中去。此方法不僅能夠生成有效的語義3D地圖,也表明在NYUv2數據集上,融合多個預測能夠提升預測性能,即使是基於基准單幀預測的2D語義標注。同時我們也證明在預測視角變化更多,重建數據集更小時,單幀分割的性能會進一步得到提升。我們的系統能夠在實時的情況下有交互地使用,幀率能達到~25HZ。

- * Bowman S L, Atanasov N, Daniilidis K, et al. Probabilistic data association for semantic SLAM[C]// IEEE International Conference on Robotics and Automation. IEEE, 2017:1722-1729.*
語義SLAM的概率數據關聯
(KITTI數據集 ORB-SLAM2 數學公式多 室內外場景 實時 暫未開源)
摘要:
傳統的SLAM方法多依賴於低級別的幾何特征:點線面等。這些方法不能給環境中觀察到的地標添加語義標簽。並且,基於低級特征的閉環檢測依賴於視角,並且在有歧義和或重復的環境中會失效。另一方面,目標識別方法可以推斷出地標的類型和尺度,建議一個小而簡單的可識別的地標集合,以用於視角無關的無歧義閉環。在同一類物體有多個的地圖中,有一個很關鍵的數據關聯問題。當數據關聯和識別是離散問題時,通常可以通過離散的推斷方法來解決,傳統SLAM會對度量信息進行連續優化。本文中,我們將傳感器狀態和語義地標位置的優化問題公式化,其中語義地標位置中集成了度量信息,語義信息和數據關聯信息,然后我們由將這個優化問題分解為相互關聯的兩部分:離散數據關聯和地標類別概率的估計問題,以及對度量狀態的連續優化問題。估計的地標和機器人位姿會影響到數據關聯和類別分布,數據關聯和類別分布也會反過來影響機器人-地標位姿優化。我們的算法性能在室內和室外數據集上進行了檢驗論證。
另,有一篇我很感興趣的論文,不過跟SLAM沒有結合,亮點在於街景的語義分割
Pohlen T, Hermans A, Mathias M, et al. Full-Resolution Residual Networks for Semantic Segmentation in Street Scenes[J]. 2016.
用於街景語義分割的全分辨率殘差網絡
作者開放了源代碼~~https://github.com/TobyPDE/FRRN
1.2.3 端到端SLAM
- Zhu Y, Mottaghi R, Kolve E, et al. Target-driven Visual Navigation in Indoor Scenes using Deep Reinforcement Learning[J]. 2016.
使用DRL深度加強學習實現機器人自主導航
摘要:
深度強化學習中有兩個較少被提及的問題:1. 對於新的目標泛化能力不足,2. 數據低效,比如說,模型需要幾個(通常開銷較大)試驗和誤差集合,使得其應用於真實世界場景時並不實用。 在這篇文章中,我們解決了這兩個問題,並將我們的模型應用於目標驅動的視覺導航中。為了解決第一個問題,我們提出了一個actor-critic演員評論家模型,它的策略是目標函數以及當前狀態,能夠更好地泛化。為了解決第二個問題,我們提出了 AI2-THOR框架,它提供了一個有高質量的3D場景和物理引擎的環境。我們的框架使得agent智能體能夠采取行動並和對象之間進行交互。因此,我們可以高效地收集大量訓練樣本。我們提出的方法 1)比state-of-the-art的深度強化學習方法收斂地更快,2)可以跨目標跨場景泛化,3)通過少許微調就可以泛化到真實機器人場景中(盡管模型是在仿真中訓練的)4)不需要特征工程,幀間的特征匹配和對於環境的特征重建,是可以端到端訓練的。
視頻鏈接
https://youtu.be/SmBxMDiOrvs
- Gupta S, Davidson J, Levine S, et al. Cognitive Mapping and Planning for Visual Navigation[J]. 2017.
用於視覺導航的感知建圖和規划
摘要:
我們提出了一個用於在陌生環境中導航的神經網絡結構。我們提出的這個結構以第一視角進行建圖,並面向環境中的目標進行路徑規划。 The Cognitive Mapper
and Planner (CMP)主要依托於兩個觀點:1.一個用於建圖和規划的統一的聯合架構中,建圖由規划的需求所驅動的。2. 引入空間記憶,使得能夠在一個並不完整的觀察集合的基礎之上進行規划。CMP構建了一個自上而下的belief map置信地圖,並且應用了一個可微的神經網絡規划器,在每一個時間步驟中決策下一步的行動。對環境積累的置信度使得可以追蹤已被觀察到的區域。我們的實驗表明CMP的性能優於reactive strategies反應性策略 和standard memory-based architectures 標准的基於記憶的體系結構 兩種方法,並且在陌生環境中表現良好。另外,CMP也可以完成特定的語義目標,比如說“go to a chair”到椅子那兒去。
圖1:整個網絡的架構:我們學習的導航網絡由構圖和規划模塊組成。構圖模塊負責將環境信息引入到空間記憶中去,空間記憶對應於一個以自身為中心的環境地圖。規划器使用這樣的空間記憶與導航目標一起輸出導航行為。構圖模塊沒有明顯的監督機制,而是在學習過程中自然地呈現出來。
谷歌大法好~ 代碼,模型,演示視頻鏈接 https://sites.google.com/view/cognitive-mapping-and-planning/
1.3 研究現狀總結
用深度學習方法替換傳統slam中的一個/幾個模塊:
目前還不能達到超越傳統方法的效果,相較傳統SLAM並沒有很明顯的優勢(標注的數據集少且不全,使用視頻做訓練數據的非常少。SLAM中很多問題都是數學問題,深度學習並不擅長等等原因)。
在傳統SLAM之上加入語義信息
語義SLAM算是在擴展了傳統SLAM問題的研究內容,現在出現了一些將語義信息集成到SLAM的研究,比如說用SLAM系統中得到的圖像之間的幾何一致性促進圖像語義分割,也可以用語義分割/建圖的結果促進SLAM的定位/閉環等,前者已經有了一些研究,不過還是集中於室內場景,后者貌似還沒有什么相關研究。如果SLAM和語義分割能夠相互促進相輔相成,應該能達到好的效果。
另:使用SLAM幫助構建大規模的圖像之間有對應關系的數據集,可以降低深度學習數據集的標注難度吧,應該也是一個SLAM助力深度學習的思路。
