基於圖像語義的可視化同時定位和建圖的面向應用程序的移動機器人自主導航解決方案綜述

本文轉載自查看原文 2021-01-31 15:37 263 SLAM

基於圖像語義的可視化同時定位和建圖的面向應用程序的移動機器人自主導航解決方案綜述

論文名稱: A survey of image semantics-based visual simultaneous localization and mapping Application-oriented solutions to autonomous navigation of mobile robots
作者: Linlin Xia, Jiashuo Cui, Ran Shen, Xun Xu, Yiping Gao and Xinying Li

論文下載：https://journals.sagepub.com/doi/pdf/10.1177/1729881420919185

作者主頁：https://orcid.org/0000-0002-5079-3788

本文的核心思想

作為機器人自主導航的經典方案之一，視覺同步定位和建圖（V-SLAM）有着本質的限制，這些限制來自於對以圖像幾何特征為基礎的單純環境理解。相對比，語義SLAM以高層次的環境感知為特點，因此開啟了一道新的大門，即將圖像語義應用於有效位姿估計，回環檢測，構建3D地圖等等。這篇文章詳細回顧了語義SLAM的近期發展，主要涵蓋不同SLAM方案的感知能力，魯棒性和准確性。特別的，“語義提取器”的概念和“現代同步定位和建圖（modern SLAM）”的框架被提出。本文進一步在宏觀角度討論了一些開放問題，並嘗試找到對應答案。本文認為，多尺度地圖表示，對象SLAM系統和基於神經網絡的SLAM等設計方案，能夠有效解決圖像語義融合的視覺同步定位和建圖。

I.研究背景介紹

現如今，自主機器人可以在沒有人為干預的情況下，獨立操作完成特定的任務。作為自主機器人的一個主要的屬性--自主運動，主要取決於自我運動估計和高層次的環境感知。但是，在某些情況下，人工地標是不可知的，或者機器人處於GPS缺失的環境中，這樣自我運動估計或獲取場景信息就遭遇很大的困難。名詞“SLAM”解釋為同步定位和建圖（有Smith和Cheeseman在1986年提出），被認為是一個基本工具，解決移動機器人在未知環境中的未知位置進行自我定位。技術上，移動機器人漸近的構建一個環境的全局一致地圖，於此同時借助此地圖實現自我定位。從數學角度來看，SLAM過程能夠被抽象為一個並發估計問題，主要涵蓋了機器人在可獲得地標下的姿態估計和位置估計。很長時間以來，SLAM問題基本上是通過一系列距離傳感器來解決的，比如光線檢測和測距，紅外輻射，或聲納導航和測距，這些適用於小范圍靜態環境中（各種距離傳感器受限於他們獨自的物理屬性）。但是，在動態、復雜和大范圍環境下，基於距離傳感器的SLAM可能面對很多挑戰。

SLAM問題的示意圖如圖1所示。

通過外部相機（作為外部傳感器）方法的SLAM被稱為視覺SLAM（V-SLAM）。相比於傳統SLAM技術框架，V-SLAM的重大優勢是，它對於實際應用場景的適用性，因為V-SLAM可獲得更豐富的圖像紋理結構和更簡單的傳感器配置。此外，伴隨計算機視覺（CV）技術的發展和成熟，使得V-SLAM可獲得圖形和視覺的支持。意識到基於CV的方法已經解決了許多主要的V-SLAM領域中的問題，例如：圖像特征檢測、描述和匹配，回環檢測和3D地圖構建等等。目前，利用許多開源算法，V-SLAM系統的架構已經完全建立。但是，我們必須承認，在機器人移動或者具有挑戰性環境下（比如，快速的機器人動力學，快速變換的環境，嚴重的光亮變化，嚴格的可見度限制或復雜的缺失紋理場景），V-SLAM技術還是不夠健壯。Cadena等人，首先將SLAM時間線分為3個時期，並進一步總結了不同時期的成果。技術上，Cadena他們陳述，如果我們已經來到的SLAM的第三階段，即為一個魯棒感知的階段：魯棒性性能的實現，高層次的理解，資源感知和任務驅動的感知表示。SLAM相關的研究者，已經致力於研究方法，解決高層次的場景感知和理解。他們的工作主要定位於語義理解，因為它在提升魯棒性，直觀可視化和高效的人機交互方面有着優勢。與基於語義的魯棒性/准確性提升或語義構圖相關的研究，都被稱為語義SLAM。由於V-SLAM能夠在一個聯合的公式下實現定位和建圖，自然的，上述的語義SLAM的兩個過程也同樣能夠在一個估計器下同步解決。

SLAM時間線如圖2所示。

表1列出了從2006年至今的SLAM技術方面的主要研究調查。

本調查的其余部分如下:

陳述了對於語義提取器的詳細描述，現代V-SLAM系統的基礎架構以及主流的開源算法。
然后，特別關注於語義SLAM的許多獨特屬性----感知力、魯棒性和准確性，並分別與人機環境交互，環境適應和可靠的導航有關相結合分析，這些問題將在第三、四、五章節詳述。
關注語義SLAM目前面臨挑戰，嘗試尋求這些問題的答案。
給出語義SLAM相關內容的總結。

II. 語義SLAM系統的組件

A.語義提取器

對象檢測被認為是CV的一個重要的分支，CV的發展可以初略的分為人工特征機器學習階段（2001-2013）和學習特征深度學習階段（2013至今）。區域卷積神經網絡（R-CNN）系列屬於典型的2-階段網絡，包括R-CNN，fast R-CNN，faster R-CNN，以及最新的mask R-CNN。值得注意的是，最新類型的對象檢測算法實現同步完成目標定位和分類任務，而不是首先進行對象的2D定位。具有代表性的Yolo系列算法（已知的最快的語義提取器）采用S×S的網格替代區域建議，並且這些網格的分類類別作為最終檢測結果的理想候選結果。一般而言，Yolo系列的檢測速度滿足一般的實時語義SLAM系統，但是為了更高的准確度，最新的Centernet提供了一個新穎的基於特征點的方法。

為了清晰的描述對象檢測網絡的發展，按照時間順序的總覽如圖3所示。

語義分割,在涉及極其復雜的場景情況下，需要一些特殊的關注，並且為了確保魯棒定位和建圖，更好的場景圖例，也就是大量對象之間的深度關聯挖掘需要進一步考慮。相對比，對象檢測適用於粗粒度的場景推理，而語義分割更為普遍，因為它適用於精細的場景處理。類似的，語義分割的發展經歷了從“機器學習為基礎”到“深度學習為基礎”的轉變。如今，CNN的引入已經極大的提升了對象分割的精度和效率；因此，對於構建語義SLAM系統的情況，通常首選基於CNN的解決方案。考慮到語義SLAM系統中語義分割的實際應用，需要研究和網絡相關的兩件事（為了進行語義分割）。一件是采用技術指標（包括准確性和有效性），另一件是應用條件（表明一個網絡是否適用於視頻分割或者3D圖像分割）。這一段主要是描述基於深度學習的語義分割網絡，大多遵從上述的思路。

對不同CNN網絡進行語義分割的性能對比如表2所示。

B.現代V-SLAM系統

考慮到傳感器數據和任務級別的流向，一個V-SLAM系統一般包含兩個部分：前端和后端。如圖所示，視覺里程計和回環檢測模塊同時接收某些傳感器所提供的輸入。這里，視覺里程計的功能是提供預先的機器人位姿估計，回環檢測模塊的功能是提供場景相似度。獲得到的機器人位姿或場景相似度信息，作為后續機器人全局優化位姿和地標，以及繪制移動軌跡和環境地圖的源信息。數學上，前端任務和后端任務可以被分別抽象為“數據關聯”問題和“狀態估計”問題。

V-SLAM系統示意如圖4所示。

前端：數據關聯

前端模塊在同一圖片序列中的不同幀，追蹤相同特征（特征點或代表性像素塊）的過程被稱為“數據關聯”。一般而言，早起V-SLAM系統通過特征匹配來處理“數據關聯”。顯然，對於局部圖像特征的描述信息缺失，在很大概率下會導致錯誤的數據關聯，這也就會導致錯誤的位姿和地標估計。一些關注於減少數據關聯中錯誤的研究（例如：隨機樣本共識 RANSAC）被提出，但是尚未真正解決問題仍令其不滿意。之后的研究者開始在概率論角度解決“數據關聯”（也就是，做出將新特征分配給跟蹤序列的軟性決定）。關於數據關聯在SLAM問題中的表達，Bowman等人是\(D\triangleq Z\{l_k,x_k\}_{k=1}^K\)表達的支持者，這就表明\(Z_k\)（下標\(k\)表示\(k\)th）是獨立於\(x_k\)（相機姿態）和\(l_k\)（地標位置）。之后就采用最大估計概率（MLE）來解決\(D\)。

概率數據關聯充分考慮了特征分配中的不確定性，並最大程度上減少了錯誤關聯，具體如圖5所示。

后端：狀態估計

Lu等人和Gutmann等人將SLAM問題定義為一共最大后驗估計問題，目標是從一組觀測（\(Z=\{z_1,\cdots,z_k\}\)帶有噪聲）中估計一個變量\(X\)（包括機器人姿態和地標位置）。

\(X^*= \underset {X}{\operatorname {arg\,max}} P(Z|X)P(X)\) （1）

等式（1）遵循貝葉斯定理。\(P(Z|X)\)表示狀態\(Z\)（給定變量\(X\)）的可能性，\(P(X)\)表示變量\(X\)的先驗概率，所以后驗概率表示為\(P(Z|X)P(X)\)。這個問題一般化為確定一個分配變量\(X^*\)，使得\(P(X|Z)\)最小，並進一步確定變量\(X\)。SLAM問題最為重要的答案之一是由Davison等人提出的，他們首先使用擴展卡爾曼濾波器（EKF）進行更新相機和地表點的狀態信息。與之不同的是，基於集束優化的非線性優化方法，通過將具有約束變量的全局約束方程進行優化，而不是純粹的迭代求解EKF，來求解最大后驗概率估計問題。相比而言，基於EKF的SLAM方法在處理小范圍場景應用的情況下比基於優化方案的SLAM方法具有更高的效率；但是，對於大范圍場景應用下，基於過濾的SLAM方法由於需要計算較大的協方差矩陣而造成性能表現欠佳。

開源V-SLAM系統。一般的，V-SLAM系統可以通過相機類型進行分類，包括但不僅限於：單目，雙目和RGB-D相機。作為詳細的比較，作者堅信，對於一個V-SLAM框架評價的關鍵點，包括，是否能夠稠密建圖和回環檢測，是否支持大量傳感器，是否具備實時處理的性能。重要的是，為了簡化目前語義SLAM的設計，許多研究之間參考了完善的V-SLAM框架。

表3進一步總結了它們的特性，包括前端，后端，重定位，回環檢測等等相關描述。

III.人機環境交互：感知

我們認為在語義SLAM領域中的感知定義應該包含兩個方面：對環境的理解和對人的理解。毫無疑問，一個環境模型（也被定義為環境地圖）將會在這兩個過程中發揮重要作用。

表4主要總結了一些語義地圖的研究。

語義地圖

語義地圖在一個寬廣的場景下可分類為對象級別和像素級別。以前的研究建立了對象級別的語義地圖的原始概念，即將提前建立好的已知對象的3D模型插入到無意義的稀疏點雲地圖中。很不一樣的是，一些研究嘗試通過一些傳統的工具構造優越的像素級語義地圖，比如：SVM（即使SVM一般被用在解決工業中的預測，分類和診斷問題），CRF，並且至今，因為這些工具被認為在對象識別和場景分割方面具有重要作用。但是，大部分情況下，這些有限制的工具不能滿足分類的准確性要求。受到深度學習的啟發，出現越來越多的基於CNN的對象識別、檢測和分割的研究。因此，這些大量的成就為構建更多的像素級語義地圖提供了保證。Li和Delaroussi提出了一個方法，即融合目前最先進語義分割的策略（即DeepLab-v2）和V-SLAM框架（大型直接單目，LSD-SLAM）。它的成功在於，通過一個多視單目相機構建一個半稠密的3D語義地圖（區別於Mccmac等人的使用RGB-D相機構建的稠密3D語義地圖）。值得注意的是，這個融合方案反過來，對於更大范圍的2D單視角的語義分割方法有很大的性能提升。明顯的，SLAM從本質上提高了語義分割的准確性。

2. 公開問題

時變語義地圖。語義地圖為高級語義理解打下基礎，但是遠不能達到滿足長期魯棒定位的使用。一個理想的解決方法，是構建一個時變語義地圖，因為一個模型對於所關注場景下的對象的時空關系不能被建立，和后續對象的空間變化（即運動）不能被預測這一事實。因此，我們相信，通過引入時變語義地圖有助於長期動態定位。我們也相信，考慮到時空關系的原因，這些時變語義地圖的基礎就是一些人工智能的方法。據我們所知，目前語義SLAM很少涉及這方面的研究。

全景語義地圖。據上述討論，基於CNN的語義分割會得到更細粒度的結果。即使看起來足夠精細，但是對於某些特定目的，分割區域不是很小的情況下（例如，不同類型的車輛不能被識別），某種程度上限制了對於場景感知的理解。在SLAM領域中的實例分割網絡的一個重要的貢獻在於，它在同類別的對象中進一步細分實例；盡管如此，這一方法不能適用於不規則的背景下。

全景分割全部包括這兩個分割的優勢，作為CV領域的一個新的方向，它被認為以較好的方式生成一個帶有全局已知標簽的細粒度結果。因此，全景語義地圖，被認為是研制智能自主機器人和研究增強顯示背景知識有力而重要的工具。全景融合是全景語義3D重建的首要研究，但是，它不利地忽略了對於基於語義的定位思想的研究。由於語義定位在實際應用中常被忽略的事實，我們堅信，同步關注定位和建圖的語義SLAM框架仍然值得被研究。

Ⅳ.環境適應：魯棒性

如上所述，V-SLAM如今處於魯棒感知的階段。某種程度上，一個重要的語義SLAM關注是“魯棒性”提高。在特征選擇機制方面和優化數據關聯方面，我們將着重關注魯棒性這一問題。在詳細回顧之前，我們首先總結一下魯棒性提高的相關性研究。

表5總結魯棒性相關研究。

特征選擇機制

對於特征點的先驗語義獲取會導致視覺里程計魯棒性的提高。因為我們初始就評估過這些特征點是否適合特定的任務，因此所選擇的魯棒性特征會促進更好的機器人自我運動追蹤。更有趣的是，特征選擇策略可以針對特定變化任務的要求，進行對應的更改。我們將在接下來的內容回顧最近的研究:

興趣區域特征選取。Liang等人提出一個視覺里程計框架，在視覺顯著地圖（由單張圖像上每個像素點的視覺顯著性所定義，越接近紅色，視覺顯著性越高）上進行特征選取，由語義分割結果進行過濾。
內容豐富區域特征選取。使用從低信息熵區域提取的特征點，其位姿估計的准確度較低。同時，對於這些特征進行追蹤，會導致數據關聯的錯誤率提高。Ganti和Waslander提出一個基於信息理論的特征選取方法，通過將語義分割的不確定性概念來計算信息交叉熵。這一方法導致特征數量驟減，因此顯著提高了系統的實時性能和魯棒性表現，同時獲得客觀的准確性。
動態特征選取。所提取的特征點（來自於圖像）屬於移動對象（所謂的動態特征點），大大的降低了V-SLAM系統的魯棒性。幸運的是，高級語義能夠有效地對靜態和動態特征點進行划分（所謂的動態划分），以至於那些在動態場景中使用正機制的V-SLAM系統獲得很高的魯棒性。

優化數據關聯

在V-SLAM框架，考慮到更新頻率，數據關聯可以被分為兩類：短期關聯（e.g.，特征匹配）和長期關聯（e.g.，回環檢測）。這樣的機制將最大化數據關聯的可靠性。但是，在回環檢測失敗的情況下（e.g.，無人車長期行駛在直行道上），視覺里程計會不可逆的漂移，從而導致導航系統的失效。一項語義SLAM的研究，表明圖像語義基於中期關聯機制。從實驗角度，這項機制極大減小了視覺里程計在無人駕駛場景下的平移漂移。有幾個問題限制了這種基於圖像語義機制的推廣。Bowman等人發現在應用中，這樣的語義關聯有一個缺陷，就是對象語義的不合理數據關聯極大影響了定位和建圖的結果。因此，他們提出了一個所謂的概率數據關聯機制，在處理數據關聯的過程充分考慮不確定性。

公開問題

主流的語義SLAM方法，通過選擇特征或優化數據關聯來提高視覺里程計的魯棒性。但是，算法規模的提高，通過純粹的特征選取或數據關聯優化不能滿足視覺里程計的魯棒性提高。近來，基於CNN的特征提取器在CV領域得到關注，並且它們可以獲得更多手工特征設計方案中獲取不到的魯棒視覺特征。受此啟發，在SLAM領域的研究者如今嘗試通過這樣的學習特征進行重建視覺里程計，從而最終實現提高視覺里程計的魯棒性。遵循這樣的想法，我們相信，以后會不斷追求提高特征的穩定性和泛化性，因為這些屬性有助於提高視覺里程計的魯棒性。

Ⅴ.可靠導航：准確性

定位和建圖的准確性，可以衡量一個自主導航系統的可靠性。一般而言，如果需要提高准確性，語義幾乎可以被包含在傳統SLAM算法框架的所有階段，例如：初始化，后端優化，重定位，回環檢測等等。在后面章節陳述詳細的討論之前，我們要首先總結語義SLAM相關的研究。

這些研究致力於系統准確性的提高，如表6所示。

單目尺度初始化

由於圖像之間沒有絕對的基准，單目V-SLAM系統的尺度不可避免地隨着時間出現模糊和漂移。因此，在開發單目V-SLAM系統初始化中地一個關鍵問題是，如何矯正尺度模糊和漂移。這些問題研究中相同重點是，它們都引入了圖像語義地概念。作為圖像語義地一種形式，對象的大小被完全考慮在內，並且單目尺度初始化過程被認為更加簡潔有效。在公開數據集上地實驗結果驗證了這些方法在大量應用上的有效性，包括從小范圍地室內場景到大范圍地室外場景。

語義和幾何聯合優化

最緊密地語義和幾何聯合優化框架之一被Bowman等人提出，他們首先提出了概率數據關聯地方法。如果連續和離散數據都涉及到數據關聯任務中，直接使用一個MLE（最大概率估計）方法不能解決問題。因此，作者巧妙地將主要問題分解為多個子問題，就是，他們將所謂的混合關聯分為兩個步驟：離散語義關聯和連續姿態估計。這個兩部聯合迭代計算問題，能夠被經典地期望最大算法簡單地解決。此外，被對象檢測所提取出的語義最重要的點是，它在后端優化中發揮重要作用。

Linaos等人提出了一個合並SLAM后端中的語義信息（通過語義分割提取出）。事實是，2D對象邊界不能准確地表達出所匹配地3D對象地邊界，Linaos的方法被認為在實際應用更加有效。最新的研究將2D對象檢測運用到推理3D對象的邊界邊框。從工程角度，這個方法能夠適用於准確度要求較低但是具有實時要求的語義SLAM系統中。

重定位和回環檢測

重定位和回環檢測檢測采用相同的技術，但是，它們卻是解決不同的問題。重定位的目標是恢復相機姿態，但是回環檢測的功能則是獲得幾何一致地圖。不考慮單個技術功能的差異性，我們更加關注這些技術的相同點。因此，這一小段主要是描述基於語義的重定位算法，大多遵循面向運用的思路。

幾何定位的主要限制在於，對於預先構建好的地圖，長期定位具有難度場景的能力。但是，基於語義的方法是這個具有挑戰性問題的答案。從近來的研究中可見，一項基於語義的交叉推理定位算法被提出。原則上，幾何定位算法依賴於圖像形狀之間的相似性，並且這明顯受限於研究者，即使圖像從相同位置采集，季節的變化足以使所關注的圖像表現得不一致，以至於匹配關系變得不可靠。在這種情況下，語義肯定會讓人聯想到，跨季節本地化研究的重要貢獻之一是，單個圖像中語義對象的拓撲隨着時間的推移將保持一致。這個跨季節定位方法被應用在無人駕駛中，可以表現出足夠的可靠性。一個新穎的基於圖的語義重定位方法被Gawel提出，在這樣的系統中，帶有語義的關鍵幀被轉化為一組3D圖，並且這些3D圖被用來在預先構建好的環境地圖中進行匹配。處理季節變化，引入的語義信息同樣解決更大的視點變化或照明變化，甚至部分由於時間引起的場景結構變化。重定位和回環檢測方案所產生的准確性提升驗證，作為V-SLAM系統的一個附加功能。

公開問題

部分語義SLAM研究者關注基於深度學習方案的流程設計，從而可以搭建一個可訓練的端到端的SLAM系統。近年來，已經有嘗試使用CNNs的方法來估計一張圖像的深度信息。即使可行性得到了驗證，限制CNN泛化能力所帶來的困難仍然是一個固有的不適定問題。一些研究者做出一些努力，即采用一些端到端的方案，在一對圖像中聯合估計位姿信息和相機的移動。此外，Wang和Clark提供一個可替代的方案，就是直接從視頻中推理姿態和不確定性。從他們的實驗中可知，他們已經采用層級式網絡設計，伴隨認真的參數配置和充足的訓練，這樣能夠在給定數據集上得到當前最優的准確性。與此同時，反對者仍在爭論管線形SLAM在實際應用中的不良性能；他們在強調“可解釋性”和“泛化性能”的問題。對於此，研究者目前致力於深度學習建模方法，為了更好的解釋下和多維度可視化。

Ⅵ.討論

在上述章節，主要涉及到語義SLAM的感知、魯棒性和准確性問題。此外，用於提升SLAM性能的技術工具中，一些對應的公開問題被提出。這項調查的主要關注之一，就是從宏觀角度提出了這個公開問題的解決方法。因此，這個章節主要是宏觀角度的討論。主要涉及多尺度地圖表達，對象SLAM和弱監督、無監督學習SLAM。

多尺度地圖表達

我們相信，時標地圖有助於機器人的長期自主定位。近幾年來，V-SLAM的倡導者忽略了他們研究者存在的問題。例如，圖像序列的時空上下文信息已經被地圖表達所考慮，這也就不可能重構所希望的時間變化語義地圖。近來，關於RNN的研究，已經表現出構造圖像序列中時空上下文的幫助。從我們的觀點，RNN可被用來處理V-SLAM的建圖任務，建圖需要長期的強自主的定位能力。

伴隨着時變地圖（在某個時間段中包含整體的環境信息），全景語義地圖構成了可被用來進行多尺度表達的主要形式。如果要求使用一個V-SLAM框架來構造一個全景語義地圖，那么就要在全局角度分割一個全景語義地圖。作為CV領域的難點之一，多項方法被提出用來解決，在像素級別上進行分割前景對象，但是前景和背景的統一標定問題仍然存在。所提出的全景語義分割是這類問題的一種解決方案。它通過融合從語義分割和實例分割所獲得的信息，產生一個全局一致的標定，這是對於之前獲取到結果信息的更好的理解。據上述分析，在語言SLAM領域，我們堅信多尺度地圖的發展前景可觀，在高級別人機環境交互和長期自治位置方面具有相同的一般特征。

對象SLAM

從我們的角度來看，DNNs作為一個新穎的方法，對於提升視覺里程計的魯棒性卻不具備實用性。許多情況下，由於忽視特征點的魯棒性，過度訓練的DNN方案不但會產生過多的時間損耗，而且在全新場景下的某些SLAM任務中也無法使用。通過建立起對於3D場景下單個對象的單獨跟蹤，它使2D到3D以及單線程到多線程的高效特征選擇和數據關聯得以實現，從而切實提高了VO的魯棒性和准確性。

一個可靠的對象SLAM框架如圖6所示。

SLAM++提出最早對於對象SLAM領域的研究。基於對象數據集應該首先被建立的事實，SLAM++仍不適用於在線任務。最近，關於SLAM++的研究可分為兩個方向：一個是CubeSLAM提出的通過立方體描述對象，另一個是QuadricSLAM提出的用橢圓體描述對象。我們詳細對象SLAM有着廣闊的研究前景，並且它的觀點是在3D場景下，整個過程直接追蹤動態目標。伴隨CV領域中3D對象追蹤（包括3D語義估測器）的快速發展，有理由相信它對於創建一個更加高效對象SLAM系統有所幫助。

弱監督和無監督學習SLAM

伴隨數據集的出現，端到端的語義SLAM框架一般會帶來最佳定位精度，但是其可解釋性和泛化性受限於它的廣泛的應用范圍。以DNN為例，泛化能力的減弱同時伴隨着過擬合，這是由於過於細致的參數配置和訓練過程。因而，基於弱監督或無監督的學習框架被提出，應用來提高DNNs的泛化能力。但是，該項研究仍處於初期階段。事實上，在端到端的SLAM領域，基於無監督的單目深度估計器已經被認為是一個主要研究方向；與此同時，機器學習專家的興趣現在集中在DNN的可解釋性上。這些線索令我們相信，高級的學習策略將是語義SLAM框架的強大而有力的工具。重要的是，可以將語義SLAM管道輕松集成到深度強化學習范例中，以構建具有一般智能的機器人系統。

Ⅶ.總結

對於自主機器人的導航任務，一個致力於更好理解和感知機器人工作中信息的SLAM系統，已經引起了越來越多的關注。這項總結中，我們回顧了語義SLAM在感知，魯棒性和准確性方面的發展，然后討論了與最新進展和挑戰相關的開放問題。具體而言，我們嘗試從宏觀的角度尋求對這些公開問題的可能解決方案，並以建設性方式進一步提出建議。我們相信通過實際應用可以證明SLAM框架的完善性，語義SLAM將通過圖像語義的顯着融合來區分自己。基於深度學習的方法的發展顯然為研究人員提供了利用其強大的圖像處理能力來估計姿勢，檢測環路閉合，構建3D地圖等的機會。從我們的角度來看，深度學習和語義SLAM現在已經密不可分，並且在未來的研究中必將它們融合在一起。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 基於圖像語義的視覺同步定位和建圖綜述：面向應用的移動機器人自主導航解決方案移動機器人建圖與導航代碼實現——1.Hector SLAM 自主移動機器人同時定位與地圖創建（SLAM）方法概述移動機器人常用的導航定位技術及原理 ROS系統玩轉自主移動機器人（3）-- 開源機器人結構介紹 ROS系統玩轉自主移動機器人（5）-- ROS系統建模 ROS系統玩轉自主移動機器人（4）-- 嵌入式硬件平台 ROS系統玩轉自主移動機器人（1）--概述 ROS系統玩轉自主移動機器人（2）--機器人機械結構設計 ROS中階筆記（八）：機器人SLAM與自主導航—機器人自主導航