CVPR2020:視覺導航的神經拓撲SLAM


CVPR2020:視覺導航的神經拓撲SLAM

Neural Topological SLAM for Visual Navigation

論文地址:

http://openaccess.thecvf.com/content_CVPR_2020/papers/Chaplot_Neural_Topological_SLAM_for_Visual_Navigation_CVPR_2020_paper.pdf

Project webpage:

https://devendrachaplot.github.io/projects/Neural-Topological-SLAM
摘要

本文研究了圖像目標導航問題,即在一個新的未知環境中導航到目標圖像所指示的位置。為了解決這一問題,我們設計了有效利用語義和提供近似幾何推理的空間拓撲表示。我們表示的核心是具有相關語義特征的節點,這些節點使用粗糙的幾何信息相互連接。我們描述了基於監督學習的算法,可以在噪聲驅動下建立、維護和使用這些表示。視景仿真和物理仿真的實驗研究表明,該方法能夠有效地描述結構的變化規律,有效地解決長視距導航問題。我們觀察到,與研究這項任務的現有方法相比,相對提高了50%以上。

1. 介紹             

假設你在一個新房子里,如圖1所示,你被賦予了一個任務,如圖1所示找到一個目標物體(上圖)。雖然有多種可能的移動方向,但我們大多數人會選擇2號路徑移動。這是因為我們使用了強大的結構優先-我們意識到目標是一個烤箱,更可能在廚房找到,似乎可以通過路徑2。現在讓我們假設,一旦你到達烤箱,你的目標是回到你最初看到的客廳。你將如何導航?這個問題的答案在於我們人類如何存儲我們剛剛穿過的房子的地圖(或布局)。一個可能的答案是公制地圖,在這種情況下,我們將確切知道多少步驟,以達到客廳。但這顯然不是我們人類的運作方式[16,41]。相反,我們中的大多數人會先離開廚房,搬到走廊上,然后導航到從走廊上可以看到的客廳。

1:語義優先級和標記。當被要求進入烤箱的目標圖像時,大多數人會使用2號路徑,因為它允許進入廚房。人類每天都使用語義先驗和常識來探索和導航,但大多數導航算法都很難做到這一點。

從上面的例子可以清楚地看出,一個成功的視覺導航算法有兩個主要組成部分:(a)建立空間表示並存儲它們的能力;(b)利用結構先驗知識的能力。在空間表現方面,大多數導航論文都堅持要建立自由空間的精確表達。然而,度量地圖有兩個主要缺點:第一,度量地圖不能很好地根據環境大小和經驗量進行縮放。但更重要的是,真實機器人上的驅動噪聲使得建立一致的表示具有挑戰性,精確的定位可能並不總是可能的。當涉及到利用結構性優先權時,大多數基於學習的方法都沒有明確地對這些優先權進行建模。相反,他們希望學習的策略函數隱式編碼這些結構優先prior。但是,這些策略函數在通過RL學習時是否能夠編碼語義優先級仍然不清楚。

在本文中,我們建議正面解決這兩個問題。我們提出了一個空間的拓撲表示,代替了使用容易受到局部化和噪聲影響的度量映射。基於局部幾何信息,我們提出的表示由以圖的形式連接的節點組成。通過360度全景圖像直觀地表示每個節點。節點之間使用近似的相對姿態相互連接。但是,使我們的視覺拓撲圖新穎的是兩個方向函數Fg和Fs,它們提取了節點的幾何和語義屬性。具體來說,Fg估計智能體agent遇到空閑空間的可能性,Fs估計智能體agent朝特定方向移動時遇到目標映像的可能性。通過顯式建模和學習函數Fs,我們的模型確保在探索和導航新的未知環境時對結構prior進行編碼和使用。與經典的和基於端到端學習的方法相比,我們的表現法沒有什么優勢:(a)它使用圖形化表示法,允許進行有效的長期規划;(b)它通過函數Fs顯式地編碼結構優先級;(c)幾何函數Fg允許為新環境進行有效的探索和在線地圖構建;(d)但最重要的是,所有的功能和政策都可以在完全監督的方式學習,而不需要通過RL進行不可靠的信用分配。

2:模型概述。圖中顯示了所提出的模型,神經拓撲SLAM的概述。它由三個部分組成,一個在接收到觀測數據時更新拓撲圖的圖構造模塊,一個對子目標進行采樣的全局策略,以及一個通過導航操作到達子目標的局部策略。

2. 相關研究

本文在以下幾個方面對導航問題做出了貢獻:空間表示、導航策略的訓練范式和不同的導航任務。我們調查以下這些領域的工作。             

導航任務。

導航任務可以分為兩大類。第一類任務是已知目標位置的任務,需要進行有限的探索。這可以是一種簡單的無碰撞漫游[15,33],跟隨對象[22],到達目標坐標[1,17]:使用沿路徑[5,21]的圖像序列或基於語言的指令[2]。有時,目標被指定為一個圖像,但環境經驗可以通過演示[13,34]或基於獎勵的訓練[24,47]的形式獲得,這再次限制了探索的作用。第二類任務是目標未知,需要探索的時候。例如,在一個新的環境中找到一個物體[17],或者房間[42],或者進行明確的探索[6,9]。這些任務類別涉及不同的挑戰。前一個任務側重於有效的檢索和健壯的執行,而后一個任務則涉及語義和常識推理,以便在以前看不見的環境中高效地操作。在這項工作中,我們的重點是在一個新的環境中達到目標圖像。除目標圖像外,環境中沒有可用的經驗。我們不知道有任何針對這一具體問題的工作。

經典的空間表現。             

空間和拓撲表示在機器人導航中有着豐富的歷史。研究人員使用了明確的度量空間表示[12],並考慮了如何使用不同的傳感器構建這種表示[19,26–28,38],以及如何根據這種表示對智能體agent進行定位[11]。最近的工作已經開始將語義與這種空間表示聯系起來[4]。類似地,非度量拓撲表示在經典文獻中也被考慮過[10,20,23]。一些工作結合了拓撲和度量表示[39,40],一些研究了語義拓撲表示[20]。雖然我們的工作建立在現有的拓撲圖文獻的基礎上,但這種相似性只存在於高層次的圖結構中。我們的工作重點是使可視化拓撲映射和探索具有可擴展性、健壯性和高效性。我們通過在拓撲圖中同時表示語義和幾何屬性來實現這一點;能夠以在線方式構建拓撲圖,最終將學習問題作為一個有監督的問題。

學習空間表示             

根據所考慮的問題,研究了不同的表示。對於短程移動任務,應提供純反應性策略[3,15,22,33]。對於更復雜的問題,例如在一個新的環境中的目標驅動導航,這種純反應策略不能很好地工作[47],並且已經研究了基於內存的策略。這可以是普通的神經網絡存儲器的形式,如LSTMs[25,29]或transformers[14]。研究人員還將經典文獻中的見解融入到導航用表達性神經記憶的設計中。這包括空間記憶[17,30]和拓撲方法[8,13,34,35,42,45]。學習到的空間方法可以獲得表達性的空間表示[17],但是由於它們依賴於度量一致性而受到限制,因此大多被證明在離散狀態空間中用於相對較短的水平任務[17,30]。研究人員還解決了被動和主動定位的問題[7,26],以幫助建立這種一致的度量表示。一些拓撲方法[8,13,34]處理人類探索或預先構建的拓撲圖,因此忽略了探索問題。其他人則使用顯式語義構建拓撲表示[42,46],這限制了可以處理的任務和環境。與以往的工作相比,我們將空間和拓撲表示統一起來,使之對驅動誤差具有魯棒性,並說明了如何逐步地、自主地建立拓撲表示,以及如何進行語義推理。

訓練方法             

不同的任務還導致設計不同的導航政策訓練方法。這包括使用稀疏和形狀獎勵的強化學習[24,25,31,33,47]、模仿學習和匕首[17,32]、針對單個組件的自我監督學習[15,34]。雖然RL允許學習豐富的探索性行為,但使用RL的訓練策略是眾所周知的困難和樣本不足。模仿學習是樣本有效,但不允許學習探索性行為。自我監督學習很有前途,但只在已知目標任務的背景下進行了實驗。我們采用一種有監督的學習方法,展示了我們如何在不受大量樣本復雜性影響的情況下學習表現性探索行為。

實驗測試

我們的模型由三個部分組成:圖形更新模塊、全局策略和局部策略。在較高層次上,圖更新模塊基於智能體agent觀測更新拓撲圖,全局策略選擇圖中的節點作為長期目標,並使用路徑規划確定子目標以達到目標,局部策略基於視覺觀測導航到子目標。圖2提供了所提議的模型的概述。上述組件需要訪問4個功能。我們首先定義了這4個函數,然后描述了模型組件如何使用它們。

4顯示了此函數的輸入輸出對示例。對應於同一源圖像的分數隨着目標圖像的變化而變化。估計這個分數需要模型學習環境的語義先驗知識。

5顯示了圖形更新模塊的概述。

通過訪問上述四個功能,我們討論了不同組件如何使用這些功能進行導航。在本小節中,我們將描述如何訓練單個多任務學習模型來學習所有四個功能。圖7顯示了這個多任務學習模型的概述。

我們將NTS和兩次消融的成功率和SPL作為順序目標數的函數在圖8中報告。在這種情況下,成功被定義為智能體agent在1000集測試集中達到的目標比率。

我們對每一個困難場景的1000集的建議方法和所有基線進行評估。我們比較了表1中RGB和RGBD設置中所有困難級別的所有方法。結果表明,在所有困難的情況下,該方法都比所有基線有相當大的優勢,總的SUC/SPL分別為0.55/0.38、0.35/0.23和0.63/0.43、0.44/0.29。結果還表明,隨着難度的增加,NTS相對於基線的相對改善會增加,從而導致硬設置的大幅度改善(RGBD為0.43/0.26 vs 0.16/0.09)。

為了量化停止操作的影響,我們在表2(左)中報告了所有沒有停止操作的模型的性能。我們發現RL基線的性能要高得多。             

為了量化這種影響,我們在表2(右)中評估了所有沒有任何運動驅動和傳感器噪聲的模型。結果表明,在無運動噪聲的情況下,基於度量映射的基線隨距離的變化具有更好的性能,但NTS的性能並沒有明顯提高。

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM