基於雙目深度估計的深度學習技術研究
英文標題: A Survey on Deep Learning Techniques for Stereo-based Depth Estimation
論文地址: https://arxiv.org/abs/2006.02535
0.摘要
從彩色圖像中估計深度是一個長期存在的不適定問題(ill-posed problem),其已經在計算機視覺、圖形學和機器學習領域中被研究了數十年。在現有技術中,由於與人類的雙目系統有着緊密聯系,立體匹配是應用最廣泛的技術之一。在傳統方法中,基於立體視覺的深度估計通過在多張圖片上、匹配手工提取的特征來解決。盡管進行了廣泛的研究,這些傳統方法仍然受復雜紋理區域、較大的難以區別的區域以及遮擋的影響。由於在解決各種2D和3D視覺問題上獲得的成功,使用深度學習解決基於立體視覺的深度估計問題的方法受到了廣泛的關注,在2014年-2019年之間,該領域發表了150多篇論文。這種新的方法已經展示出了其在性能上的巨大飛躍,使自動駕駛、增強現實(AR)之類的應用成為可能。在本文中,我們提供了這一全新的並且不斷發展的研究領域的全面調查,總結了最常用的流程(pipeline),並且討論了它們的優點和局限性。在回顧了它們迄今為止已經取得的成就后,我們還推測了基於深度學習和立體視覺的深度估計研究在未來可能的前景。
1.介紹
從單張或者多張彩色圖像中估計深度是一個長期存在的不適定問題,其在很多領域都有應用,比如機器人、自動駕駛、物體識別、場景理解、3D建模和動畫、增強現實、工業控制以及醫療診斷。這個問題已經被廣泛研究了數十年。在文獻中提到的所有方法里面,立體匹配是傳統上研究最多的一種,因為它與人類的雙目有着緊密聯系。
第一代基於立體視覺的深度估計方法通常在精准校准過的相機拍攝的多張圖片上,依賴像素匹配。盡管這些方法可以取得不錯的效果,但是它們在很多方面都會受到限制。比如,它們不能處理遮擋、特征缺少、或者具有重復圖案的復雜紋理區域。有趣的是,作為人類,我們很善於利用先驗知識解決此類不適定的逆問題(inverse problem)。比如,我們可以輕松推斷物體的大概尺寸、它們的相對位置、甚至它們到我們眼睛的相對距離。我們之所以可以做到這些,是因為所有以前見過的物體和場景讓我們能夠獲得先驗知識,並且建立關於三維世界長啥樣的思維模型。第二代方法試圖將問題轉化為學習任務來利用這些先驗知識。隨着計算機視覺中深度學習技術[1]的出現以及大型數據集的日益普及,已經帶來了能夠恢復丟失維度(即深度維度)的第三代方法。盡管這些方法最近才出現,但是它們已經在與計算機視覺和圖形學相關的各種任務上,展示出了令人興奮和鼓舞的結果。
在本文中,我們提供了最近使用深度學習並基於立體視覺的深度估計方法的全面、結構化綜述。這些方法使用由分布在不同空間位置的彩色相機拍攝的兩張或者多張圖片。我們收集了2014年1月-2019年12月之間,發表於計算機視覺、計算機圖形學和機器學習的前沿會議和期刊中的150多篇論文。我們的目標是幫助讀者全面了解這個新興領域,回顧其在過去幾年中獲得的巨大發展。
本文的主要貢獻如下:
- 據我們所知,本文是第一篇調查了使用深度學習、基於立體視覺的深度估計方法的文章。我們對超過150篇論文進行了全面回顧,這些論文在過去6年中發表於主要的會議和期刊上。
- 我們對所有最新方法進行了全面的分類。我們首先介紹了常用流程(pipelines),然后討論了每種流程下面的所有方法之間的異同。
- 我們對問題的各個方面進行了全面的回顧和有見地的分析,包括訓練數據集、網絡結構、以及它們在重建性能、訓練策略和泛化能力的效果。
- 對於一些關鍵方法,我們使用了公開的數據集和自身的圖片測試其性能與表現,並對其進行了詳細的總結。使用后者(即自身的圖片)是為了測試這些方法在全新場景下的性能。
本文余下部分安排如下:第2節提出了問題並制定了分類的方法。第3節概述了可以用於訓練和測試基於雙目視覺的深度重建算法的數據集。第4節重點介紹了如何使用深度學習在圖像之間匹配像素的工作。第5節回顧了立體匹配的端到端的方法,而第6節討論了如何將這些方法擴展到多視圖立體視覺中。第7節重點介紹了訓練過程,包括損失函數和監督程度的選擇。第8節討論了關鍵方法(或者叫主要方法)的性能。最后,第9節討論了潛在的未來研究方向,第10節總結了本文的主要貢獻。
3.數據集
表1. 深度/視差估計的數據集
4.立體視覺匹配深度
表2. 基於深度學習的立體視覺匹配方法的分類與比較
圖1. 立體視覺匹配流程的組件
圖2. 特征學習框架
圖3. 多尺度特征學習框架
5. 立體視覺的端到端深度
圖4. 使用端到端深度學習並基於立體視覺的視差估計的網絡結構分類
表3. (主要的)28種基於端到端深度學習的視差估計方法的分類與比較
圖6. 多視圖立體視覺方法的分類
7. 端到端立體視覺訓練方法
表4. (主要的)13種基於深度學習的MVS方法的分類與比較
8. 討論與比較
表5. 以640x480大小的圖片作為輸入,運行時的計算時間與內存消耗
圖10. 全部的Bad-n誤差
注:Bad-n誤差定義為估計的視差與真實值之間相差超過n個像素的像素百分比
未來發展方向
使用深度學習並基於立體視覺的深度估計取得了可喜的成果。但是,該領域仍然處於起步階段,尚待進一步發展。在本節中,我們介紹了一些現存的問題,並且突出未來研究的方向。
(1) 相機參數。本文研究的絕大多數基於立體視覺的方法都需要矯正過的圖片。多視圖立體視覺是用平面掃描體(Plane-Sweep Volumes, PSVs)或者反向投影圖片/特征(backprojected images/features)。圖像矯正和PSVs都要求已知相機參數,這導致在自然環境中的估計變得困難。許多論文試圖通過聯合優化相機參數和三維場景的幾何結構,來解決單目估計深度和三維形狀重建(3D Shape Reconstruction)問題[153]。
(2) 光照條件和復雜的材料特性。不良的光照條件和復雜的材料特性仍然是當前大多數方法的挑戰。將物體識別、高級場景理解和低級特征學習相結合,可能是解決這些問題的一種有效途徑。
(3) 空間和深度的分辨率。當前大多數方法不能處理高分辨率輸入的圖像,並且通常生成低空間分辨率和深度分辨率的深度圖。深度分辨率特別有限,導致這些方法無法重建細小的結構(比如植被和頭發),以及距離相機很遠的結構。雖然精化模塊(refinement module)可以提高估計的深度圖的分辨率,但與輸入圖像的分辨率相比,增加還是太小了。這個問題最近被分層技術解決了,該技術通過限制中間結果的分辨率來根據實際需要得到不同精度的視差[32]。在這些方法中,低分辨率深度圖可以實時生成,因此可以用於移動平台上,而高分辨率圖則需要更多的計算時間。實時制作高空間和深度分辨率的精確地圖仍然是未來研究的挑戰。
(4) 實時處理。大多數用於視差估計的深度學習方法使用3D和4D代價體(cost volume),這些代價體是使用2D和3D卷積進行處理和正則化的。就內存需求和處理時間而言,它們是昂貴的。開發輕量級的、能夠快速出結果的、端到端深度網絡仍然是未來研究的一個具有挑戰性的方向。
(5) 視差范圍。現有方法對視差范圍統一進行離散處理。這會導致很多問題。特別地,盡管重建誤差在視差空間中可以很小,但是它在深度空間中可能導致米級別的誤差,尤其是在遠距離處。緩解此問題的一種方法是通過在對數空間中均勻離散化視差和深度。並且,改變視差范圍需要重新訓練網絡。將深度視為連續變量可能是將來研究中有希望的一種途徑。
(6) 訓練。深度網絡在很大程度上依賴於標有真值的訓練圖像的可用率。這對於深度/視差重建是非常昂貴且費力的。同樣的地,這些方法的性能及其泛化能力可能會受到很大影響,包括將模型過度擬合到特定領域的風險。現有方法通過設計不需要3D標注的損失函數,或者通過使用領域自適應(domain adaptation)和遷移學習(transfer learning)的策略來緩解此問題。但是,前者需要校准過的攝像機。領域自適應技術,尤其是無監督的領域[138],最近吸引了很多的關注,因為使用這些技術,既可以訓練易於獲得的合成數據,又可以訓練真實數據。一旦收集到新圖像,它們也將以無監督的方式,在運行時適應不斷變化的環境。它們的早期結果非常令人鼓舞,因此希望在將來看到大型數據集的出現,這有點像ImageNet,但它應用於三維重建。
(7) 從數據中自動學習網絡結構、及其激活函數和參數。現有的大多數研究都集中在設計新穎的網絡體系結構和新穎的訓練方法以優化其參數。直到最近,一些論文才開始致力於自動學習最佳架構。早期的嘗試,例如文獻[149]專注於簡單的網絡結構 我們希望在未來會看到更多關於自動學習復雜的視差估計的結構及其激活函數的研究,例如,使用神經網絡進化理論[154-155](the neuro-evolution theory),這將免除手動網絡設計的需求。
結論
對於使用深度學習、基於立體視覺的深度估計技術,本文提供了它最新發展的全面調查。盡管這些技術還處於起步階段,但是它們都達到了最高水平。自從2014年以來,我們進入了一個新的時代,其中數據驅動和機器學習技術在基於圖像的深度重建中起着核心作用。我們已經看到,2014年-2019年之間,在主要的計算機視覺、計算機圖形學和機器學習的會議與期刊上發表了超過150篇相關的論文。即使在本文提交的最后階段,也有越來越多的新論文准備發表,這使得跟蹤最新動態很困難,更重要的是,要了解它們的差異和相似之處也很困難,特別是對於該領域的新手。因此,這種及時的綜述可以為讀者提供指南,以幫助他們瀏覽這個快速發展的研究領域。
最后,本文沒有涵蓋幾個相關的領域。比如使用深度學習、基於圖像的3D目標重建(Han等人最近對此進行了調查[153]),以及基於單目和視頻的深度估計(鑒於過去5至6年中,已針對該領域發表了大量論文,因此需要單獨的綜述)。其他領域則包括光度立體視覺(photometric stereo)和主動雙目立體視覺(active stereo)[153-157],它們不在本文討論范圍之內。
本文來自 計算機視覺life公眾號 翻譯整理。
歡迎加入公眾號讀者群一起和同行交流,目前有SLAM、檢測分割識別、三維視覺、醫學影像、GAN、自動駕駛、計算攝影、算法競賽等微信群(以后會逐漸細分),請掃描下面微信號加群,備注:”昵稱+學校/公司+研究方向“,例如:”張三 + 上海交大 + 視覺SLAM“。請按照格式備注,否則不予通過。添加成功后會根據研究方向邀請進入相關微信群。請勿在群內發送廣告,否則會請出群,謝謝理解~
投稿、合作也歡迎聯系:simiter@126.com
長按關注計算機視覺life