摘要:
該教程是MVS領域專注於實用算法的實踐手冊,MVS算法只依賴於圖像,基於一些合理的假設(比如?)重建出真實精確的3d模型. 最重要的是場景固定.該教程將mvs問題轉化成圖像/幾何約束優化問題.詳細來說主要在兩方面: 1.魯棒實現圖像一致性檢測;2.有效的優化算法.
主要講了這兩因素在應用程序和工業中如何應用.本教程還描述了高級方法涉及到領域專業知識如:結構優化,以及接下來的挑戰和未來的研究方向.
1簡介
1.1 圖像獲取
有序無序
1.2 相機投影模型
如簡介所述,為了使重建效果更好,MVS算法需要額外的信息,尤其是每個圖片對應的相機模型-它描述了如何將3D點投影到對應的2D空間,MVS算法常采用針孔相機模型,它的相機投影矩陣是3X4的矩陣[88],按比例定義的.這是通常用於拍攝靜態照片的現成數碼相機的模型。任何一個3X4的矩陣都可以分解成3x3的上三角矩陣K和3X4姿態矩陣的乘積[R|T].
K --- 相機內參矩陣
(fx, fy): 垂直/水平焦距
(cx, cy): 主點
s : 扭曲畸變
[R|T] --- 外參矩陣
R : 旋轉參數
T : 平移參數
矩陣K是相機的內參矩陣,它是由相機的內參組成,垂直、水平焦點(光心)長度(fx, fy),主點(cx, cy),畸變參數s。[R|T]矩陣為外參矩陣,R是相機的旋轉矩陣,T是相機的平移矩陣。由於相機傳感器的質量問題,人們很少估計相機投影矩陣的11個參數,一般假設 沒有畸變即s = 0,傳感器為方形即fx = fy,圖像沒被裁剪時主點在相機中心,因此普通針孔相機的相機參數由 焦距f,旋轉矩陣R和平移矩陣T中7個參數組成;
對於附加鏡頭成像效果不好或者廣角相機(如圖1.4左所示),單純的針孔相機模型不足以表示相機模型,通常要加上一個徑向畸變.尤其是對高分辨率圖像徑向畸變是很重要的,因為微小的偏離將會涉及到邊界的多個像素值.
徑向畸變通常在進入MVS算法流程之前消除,如果徑向畸變參數已經估算出來,可以通過重新采樣對圖像反畸變處理消除畸變,就像是通過理想鏡頭獲取的無畸變圖像(圖1.4左下)。消除圖像畸變可以簡化MVS算法,計算時間更短。一些相機如手機相機或者專用硬件在圖像獲取之后進行去畸變處理.注意修正的廣角圖像需要重新采樣及視野裁剪,為了避免這些問題mvs算法需要支持徑向畸變及更復雜的相機模型,這增加額外的復雜度。
最后,滾動快門是特別復雜模型的另一原因,對視頻處理應用很重要(見圖1.4右)。 帶有滾動快門的數字傳感器暴光出每一排圖像的時間略有不同。 這與全局快門形成鮮明對比,全局快門是將整個圖像同時曝光。 滾動快門通常以更高的更高的傳感器吞吐量,其相機模型更加復雜。 因此,在捕獲圖像時如果相機或場景在移動,圖像的每一行捕獲的場景略微不同。 如果相機或場景運動緩慢。w.r.t. 快門速度很快,滾動快門效果小到足以被忽略。 否則,相機投影模型需要融合快門效果[63]。
1.3 Structure from Motion
有許多關於 Structure from Motion 算法的文章,本章的目的也不是詳細介紹該算發,接下來我們會討論一些SFM算法的關鍵點以及它與MVS算法的關系。
SFM算法輸入一系列圖像,輸出每張圖像的相機參數和圖像中3D點,通常被稱為跡點, 跡點通常是重建3D點的空間坐標以及其在對應圖像上的2D坐標.當下SFM算法的基本流程如圖1.5所示:
計算每張圖像的2D特征點
圖像間2D特征點匹配
從匹配關系構建2D tracks
從2D tracks 解sfm 模型
bundle adjustment優化sfm模型
SfM的初步工作主要集中在剛性場景的假設下二視圖和三視圖下的幾何特征的構建上[88]。 Carlo Tomasi的視覺重建算法[182]是早期工作的雛形。 SfM的關鍵發展之一是在嘈雜的匹配中使用RANSAC [61]魯棒的估計二視圖和三視圖之間的極線幾何。
然后,成果集中在SfM算法的兩個關鍵部分:1)從多個相機計算歐幾里德重建(縮放),即估計攝像機參數和跡點的3D位置;2)構建更長的2D跡點, 20世紀末,SfM算法能夠從大型結構化圖像集穩健地獲取計算模型,例如從圖像序列或視頻序列[62,152]。第一批SfM工業解決方案開始商業化應用,例如在電影編輯和特效領域[4]。
最初這些系統主要是為結構化圖像集而設計的,即圖像順序非常重要,例如視頻序列。 雖然一些MVS應用程序可以實現結構化順序,例如,Google StreetView [81]或微軟 Streetside [143],許多最近的MVS應用程序也使用在不同時間、不同硬件獲取的、無序的圖像集,例如,航拍圖像的3D地圖[108,144,30]。 隨着質量高速度快的特征檢測器[87,135,57]和描述子[135,36,159,130,26]的發展,使SfM能夠應用於非結構化數據集。 高質量的描述子使從不同拍攝姿態和照明構建更長質量更高的跡點成為可能。
解決大型非結構化照片SfM的最終要素是改善匹配階段。 對於非結構化照片集,人們沒有任何關於候選圖像附近應該匹配的先驗知識。 因此,每個圖像必須與其他圖像一一匹配,即計算上非常昂貴。 有效的索引[146]結合高質量的描述子允許數百萬的有效成對匹配的圖像。 簡化連通圖的跡點[172]和並行化[25,64]進一步導致業界使用的t state-of the-art 的SfM流程,例如,微軟的photosynth [16]和谷歌的photo tours[15](見圖1.6)。
1.4 Bundle Adjustment
算法: RANSAC 從有噪聲的匹配中計算極線幾何
1> 多相機的歐幾里得重建---估算相機參數和tracks 3D點
2> 構建longer tracks
盡管BA算法不是SFM算法的一部分,優化SFM算法的初始模型是常見步驟,給一系列相機參數{Pi}和跡點s{Mj,{mji}}, Mj代表軌跡點的3D坐標,mij代表在第i個攝像機的投影2d圖像坐標。BA算法最小化以下非線性最小二乘誤差
式中: v(j):是點Mj可見的攝像機索引列表
pi(mj):表示相機中3D點Mj在相機i及相機參數Pi的2D投影坐標,
E(P,M):通常以平方像素測量,但更常見度量是使用均方根誤差或RMSE來表達估計精度,以像素為單位測量,定義如下:
其中N是(1.2)中剩余項數的和。BA算法之前的典型RMSE值大約為幾個像素,而BA優化之后的值通常是亞像素。
BA框架支持將多個傳感器與SfM目標相結合。 SfM融合GPS和IMU數據的一種方法是簡單地添加單獨項到式(1.2),懲罰偏差來自GPS和IMU信號的預測與相機模型Pi。
MVS算法對相機模型估計的准確性非常敏感。 原因是,出於效率目的,他們使用由相機模型定義的極線幾何將2D問題匹配成一維匹配問題(更多細節參見第1.5節)。 如果重投影錯誤很大,則像素可能永遠不會與其真實匹配相比,顯着降低了MVS性能。 MVS對相機重投影誤差的魯棒性取決於主要是關於如何容忍匹配標准(即第2章中提出的照片一致性措施)是否錯位。 通常,照片一致性度量的域Ω越大(參見式2.1),測量越穩健。 不幸的是,很大域也傾向於產生過度平滑的幾何,所以有一個准確性和穩健性之間的妥協。
由於MVS對重投影錯誤非常敏感,因此BA算法通常是MVS的要求,目標是子像素重投影錯誤。 請注意,因為重投影錯誤是以像素為單位測量的,可以對輸入圖像進行下采樣並重新縮放相機參數,直到重投影誤差降至某個閾值以下。 這個只要下采樣圖像仍然包含,方法就會起作用足夠的紋理和細節讓MVS發揮作用[72]。
1.5 Multi-View Stereo
多視圖立體視覺的起源可以追溯到人類立體視覺,並且是第一次嘗試解決立體匹配問題,通過把它作為一個計算問題[139]。 直到今天,雙視圖立體算法一直是一個非常活躍非常成熟的研究領域[162]。多視圖立體幾何起源於對雙視圖立體幾何的自然改進。 多視圖立體幾何不是從兩個不同的視點捕獲兩張照片,而是在視點中間捕獲更多的照片以增加穩健性,例如圖像噪聲或表面紋理[184,147],最初是一種改進雙視立體聲的方法,如今演變成一種不同類型的問題。
雖然MVS與這種經典立體聲具有相同的算法原理,MVS算法旨在處理圖像更多變化的視點,例如圍繞物體的圖像集,並且還處理非常大量的圖像,即使在數百萬的訂單。 MVS問題性質的差異最終會產生與經典不同的算法立體聲對應物 作為一個例子,3D繪圖的工業應用[108,144,30],處理數百萬張照片一次千米,有效地重建大都市區,國家,最終整個世界。
匹配圖像中的像素是一個具有挑戰性的問題獨特的立體聲或多視角立體聲。 事實上,光流是另一回事計算機視覺領域非常活躍,解決了圖像密集對應的問題[33]。 與MVS的主要區別在於光流通常是兩個圖像問題(類似於兩個視圖立體聲),相機未校准,其主要應用是圖像插值而不是3D重建。請注意,在MVS的情況下,攝像機參數是已知,求解場景的3D幾何形狀完全相同解決輸入圖像中的對應問題。 查看為什么,考慮屬於3D場景幾何的3D點(參見圖1.7左)。 將3D點投影到可見攝像機組中建立投影坐標之間的唯一對應關系在每個圖像上。給定圖像中的像素,在其他像素中找到相應的像素圖像需要兩個成分:
在其他方面生成可能的像素候選的有效方法圖片。
•衡量某個候選人是否正確的可能性的衡量標准比賽。
如果不知道相機的幾何形狀,通常情況就是如此在光流中,圖像中的每個像素可以匹配另一圖像中的任何其他像素。也就是說,對於每個像素,必須在另一個像素中進行2D搜索圖片。但是,當相機參數已知時(和場景是剛性的),圖像匹配問題從2D搜索簡化進行一維搜索(見右圖1.7)。圖像中的像素生成a3D光線穿過像素和相機中心圖片。另一個圖像上的相應像素只能位於其上將光線投射到第二幅圖像中。不同的多個攝像機看到的幾何約束來自不同視點的相同3D場景被稱為極線幾何[88]。至於判斷候選人匹配的可能性的措施,有一個關於如何建立所謂的照片一致性措施的大量文獻估計兩個像素(或像素組)的可能性在通信中。 MVS背景下的照片一致性測量在第2章中有更詳細的介紹。