多視圖幾何三維重建實戰系列之R-MVSNet

本文轉載自查看原文 2020-10-25 09:00 873 3D視覺

作者：浩南

點擊上方“3D視覺工坊”，選擇“星標”

干貨第一時間送達

上期文章介紹了用於三維重建的深度學習框架MVSNet[1]，這也是如今比較主流的深度估計的神經網絡框架。框架的原理按照雙目立體匹配框架步驟：匹配代價構造、匹配代價累積、深度估計和深度圖優化四個步驟。使用過MVSNet的同學會發現，MVSNet使用3D的卷積神經網絡對聚合后的代價體進行正則化，防止在學習過程中，受到低概率的錯誤匹配影響。但使用三維卷積神經網絡（U-Net[2]），會造成非常大的GPU消耗，使得我們在使用過程中，受到一定的限制。同時，因為該正則化的模塊，導致普通GPU單卡下無法訓練和測試較高分辨率的影像集，也會影響深度估計范圍和估計精度。圖1 MVSNet代價體正則化針對該問題，本篇文章將介紹CVPR2019的R-MVSNet[3]，並簡單根據代碼，介紹運行步驟和對應的問題。1、R-MVSNetR-MVSNet同樣是香港科技大學姚遙等人在CVPR2019上提出的一種深度學習框架，它在MVSNet的基礎上，解決了正則化過程中GPU消耗大、無法估計較大場景和高分辨率照片的問題。R-MVSNet的網絡結構如下：圖2 R-MVSNet網絡結構和MVSNet的結構類似，給定一個參考影像和與其類似的原始影像，通過2D CNN網絡進行深度特征的提取，每張影像輸出32通道的特征圖。在參考平面掃描算法[4]構造參考影像的匹配代價。形成一個特征體，然后利用GRU結構代替3DCNN對特征體進行深度正則化，防止過擬合現象，輸出表示沿深度方向不同像素所在深度概率的概率體，最后利用“贏者通吃”原則，輸出深度圖。R-MVSNet和MVSNet一樣，隸屬於監督學習的范疇。深度特征提取，匹配代價構造的步驟和MVSNet完全一致，其創新點在於利用循環神經網絡中的GRU結構對代價體進行正則化，有效降低了3D CNN正則化帶來的巨大GPU消耗。以下就該創新做重點闡釋。1.1、回顧MVSNet中的正則化步驟
MVSNet中正則化使用的3D CNN網絡參考的是U-Net（圖3），U-Net可以理解為，先按照左邊的部分進行下采樣，以降低圖片的分辨率，得到大尺度的信息，之后，結合不同尺度的圖像信息，進行上采樣（如灰色所示）。圖3 U-Net結構MVSNet使用U-Net結構進行正則化時，內存消耗會隨着模型增大而立方級別的增大。所以，MVSNets網絡雖然深度估計效率高，但在三維卷積神經網絡正則化過程中GPU資源消耗過大(圖4) ，造成MVSNet可以估計的深度范圍較小，影響深度估計的精度。傳統方法的優化方法只對當前深度那一層信息進行處理，提取深度，而圖4 – c)中，3DCNN則是對全體進行代價體正則化，面臨效率和成本問題。　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　a) 傳統方法的代價累積消耗 b) RNN代價體正則化消耗 c) 3D CNN 代價體正則化消耗圖4 代價體處理消耗示意圖1.2、R-MVSNet中的GRU優化
R-MVSNet網絡提出的替代方式是將代價體分割成沿着深度方向拼接而成的多個代價圖，直接對單個代價圖進行過濾。同時考慮到單個代價圖缺失上下文信息，采用循環神經網絡（GRU結構）過濾整個代價體，使得保證深度圖估計高效率的同時，降低了GPU消耗。堆棧式GRU結構。GRU(Gate-Recurrent Unit)是一種循環神經網絡的結構，和LSTM一樣，設有狀態傳遞和“遺忘”機制，便於逐序處理數據，按照該思路，引入GRU結構(圖5-a)，對代價圖按照深度方向逐序過濾。定義[]為向量相連作為共同輸入輸入，*為矩陣相乘。

圖5 GRU結構示意圖

為了進一步加強GRU結構正則化的能力，R-MVSNet采用一個CNN將32通道的深度特征映射到16通道的深度特征，然后使用一個三層堆棧式GRU結構對代價圖進行過濾(圖5-b)。深度優化。如圖2，R-MVSNet利用堆棧卷積神經網絡通過在深度方向抓取前后深度信息，然后每個代價圖經過GRU的過濾，最后整合形成一個過濾后代價體Cr，再經過SoftMax處理生成表示深度置信概率的概率體P，與MVSNet類似，以深度期望值作為參考影像的深度圖。1.3、損失函數的設計
大多數MVS網絡通過soft argmin操作回歸深度或視差值，其借鑒的假設是在深度方向，每個三維點在多視角圖像之間的像素值應該近似，這種假設在深度估計范圍均勻采樣的情況下是成立的，但如果對於循環神經網絡結構，則需要應用逆深度化的方法去采樣深度值，已保證一個更大的深度估計范圍。所以，作者提出采用交叉熵損失函數將深度回歸問題轉化為多類分類問題。損失函數如式（4）： (4)其中，P(i,p)表示的是第i個在概率體P中的體素，Q為在該像素上與P位置對應的深度真值。2、R-MVSNet實戰操作
首先，再次感謝Yaoyao（香港科技大學）給出的開源代碼和已經預處理好的模型和數據。其次，因為R-MVSNet是參考MVSNet框架下做出的改進，所以開源數據集和深度估計操作和MVSNet完全一致，這里對數據預處理僅做簡單的回顧，詳細數據處理內容，請大家回顧實戰系列-MVSNet。1）環境配置參考Yaoyao的github主頁中installation即可完成環境配置。（https://github.com/YoYo000/MVSNet）2）數據整理在文末分享的百度雲盤中下載數據集preprocessed_inputs/dtu.zip和預訓練好的網絡models/tf_model_19307.zip。將tf_model解壓，在其中的GRU/中獲得訓練好的模型 model.ckpt-100000.data-00000-of-00001。

圖6 百度雲盤數據將test.py 中的pretrained_model 地址改為tf_model中GRU的地址。圖7 更改預訓練模型的地址解壓下載好的dtu.zip，到用於深度估計的數據集。以scan10為例，該文件夾的結構如下圖。圖8 scan10文件夾結構3）深度估計運行代碼：

python test.py --dense_folder TEST_DATA_FOLDER --regularization 'GRU' --max_w 1600 --max_h 1200 --max_d 256 --interval_scale 0.8

注意：

flag --dense_folder 要設定為scan10的地址。
flag –regularization表示正則化代價體的方式，R-MVSNet中使用的是GRU網絡。
圖片的大小可以按照GPU的大小變更參數，但是需要時32的整數倍（特征提取時2D神經網絡要求圖像是32的整數倍）
Max_d 和interval_scale 建議先按照默認的要求，在使用自己的數據時，我們會給出調整的方式
可以和MVSNet比較發現，可用的分辨率和深度估計范圍都得到了提升。

3、結果分析與比較3.1、時間與GPU消耗比較估計時間。對於TankandTemple中的Family數據集，COLMAP的預估重建時間為4.1小時，OpenMVS重建時間為27.3分鍾，MVSNet重建時間為4.7分鍾，R-MVSNet重建時間為8.8分鍾，R-MVSNet重建效率優於傳統方法，稍劣於MVSNet(表1)，因為R-MVSNet每次的代價圖過濾都要考慮到上一步代價圖的影響，這個迭代過程節省GPU消耗的同時則加大了運行時間。表1 MVSNet和R-MVSNet結果比較

GPU內存消耗。在提升代價圖分辨率和增大深度范圍的同時(最大長寬及最大深度范圍從MVSNet的1152*864*192到R-MVSNet的1600*1200*256(如表1)， GPU消耗卻從MVSNet的10.5GB降到了6.78GB，這使得R-MVSNet適用於場景的快速重建。
深度范圍。如表1，相比較MVSNet，R-MVSNet可以回歸更大的深度范圍(由於缺少控制點信息，深度學習中的深度范圍缺少尺度信息，故沒有量綱)，如圖9，第一行表示MVSNet的深度圖估計結果，R-MVSNet表示第二行深度圖估計結果。在雕像后面的灌木林，R-MVSNet能回歸出置信度較高的深度。得到較為平滑的深度圖。

圖9 MVSNet與R-MVSNet對比結果3.2、MVSNet和R-MVSNet重建結果比較
點雲完整度比較。如圖10，第一列表示基於MVSNet深度圖配准的稠密重建結果，第二列表示基於R-MVSNet深度圖的稠密重建結果。通過對比發現：1) MVSNet可以對相片中心的對象進行重建，重建的深度范圍比較小。在小氛圍內的重建完整度較高，表面光滑，無空洞現象，但卻少周圍環境的重建信息(圖10左側)。2) R-MVSNet不僅可以對相片中心對象進行重建，且精度優於傳統方法和MVSNet方法，而且，R-MVSNet可估計更大深度范圍，如圖10右側圖像所示，周圍場景信息保留的更為完整、豐富。綜合判斷，R-MVSNet的深度重建效率高，重建效果最好，適用於場景的快速重建應用中。

圖10 MVSNet和R-MVSNet稠密重建結果比較4、總結針對三維卷積神經網絡的深度學習方法計算資源消耗大問題，利用循環神經網絡將匹配代價體分割成代價圖，並逐個進行過濾。實驗表明，循環神經網絡改進后，深度學習方法下，能快速且較為完整的進行場景重建。目前所提出的深度學習方法全在TensorFlow框架下，下篇文章將帶來一篇CVPR2020的關於有監督的MVSNet文章，在Pytorch框架下，也是對GPU資源消耗過大問題進行改進，敬請期待。5、參考文獻[1] Yao Yao, Luo Zixin, Li Shiwei, Fang Tian, Quan Long. MVSNet: Depth Inference for Unstructured Multi-View Stereo. European Conference on Computer Vision (ECCV)[2] Ronneberger, O., Fischer, P., Brox, T.: U-net: Convolutional networks for biomedical image segmentation. International Conference on Medical Image Computing and Computer Assisted Intervention (MICCAI) (2015)[3] Yao Y , Luo Z , Li S , et al. Recurrent MVSNet for High-resolution Multi-view Stereo Depth Inference[J]. 2019.[4] Collins R T . A Space-Sweep Approach to True Multi-Image Matching[C] Computer Vision and Pattern Recognition, 1996. Proceedings CVPR '96, 1996 IEEE Computer Society Conference on. IEEE, 1996.附錄開源數據集、參考論文下載地址：在公眾號「3D視覺工坊」，后台回復「R-MVSNet」，即可直接下載。開源數據集下載鏈接：（感謝香港科技大學姚遙開源的數據集鏈接）我們需要下載的是用於測試的數據集，所以打開百度雲鏈接時，點擊 “mvsnet”，再點擊“preprocessed_inputs”，下載其中的“dtu.zip”和“tankandtemples.zip”即可（圖11）。圖11 目標目錄本文僅做學術分享，如有侵權，請聯系刪文。下載1在「3D視覺工坊」公眾號后台回復：3D視覺，即可下載 3D視覺相關資料干貨，涉及相機標定、三維重建、立體視覺、SLAM、深度學習、點雲后處理、多視圖幾何等方向。
下載2在「3D視覺工坊」公眾號后台回復：3D視覺github資源匯總，即可下載包括結構光、標定源碼、缺陷檢測源碼、深度估計與深度補全源碼、點雲處理相關源碼、立體匹配源碼、單目、雙目3D檢測、基於點雲的3D檢測、6D姿態估計源碼匯總等。
下載3在「3D視覺工坊」公眾號后台回復：相機標定，即可下載獨家相機標定學習課件與視頻網址；后台回復：立體匹配，即可下載獨家立體匹配學習課件與視頻網址。

重磅！3DCVer-學術論文寫作投稿 交流群已成立

掃碼添加小助手微信，可申請加入3D視覺工坊-學術論文寫作與投稿微信交流群，旨在交流頂會、頂刊、SCI、EI等寫作與投稿事宜。

同時也可申請加入我們的細分方向交流群，目前主要有3D視覺、CV&深度學習、SLAM、三維重建、點雲后處理、自動駕駛、CV入門、三維測量、VR/AR、3D人臉識別、醫療影像、缺陷檢測、行人重識別、目標跟蹤、視覺產品落地、視覺競賽、車牌識別、硬件選型、學術交流、求職交流等微信群。

一定要備注：研究方向+學校/公司+昵稱，例如：”3D視覺 + 上海交大 + 靜靜“。請按照格式備注，可快速被通過且邀請進群。原創投稿也請聯系。

▲長按加微信群或投稿

▲長按關注公眾號

3D視覺從入門到精通知識星球：針對3D視覺領域的知識點匯總、入門進階學習路線、最新paper分享、疑問解答四個方面進行深耕，更有各類大廠的算法工程人員進行技術指導。與此同時，星球將聯合知名企業發布3D視覺相關算法開發崗位以及項目對接信息，打造成集技術與就業為一體的鐵桿粉絲聚集區，近2000星球成員為創造更好的AI世界共同進步，知識星球入口：

學習3D視覺核心技術，掃描查看介紹，3天內無條件退款
圈里有高質量教程資料、可答疑解惑、助你高效解決問題覺得有用，麻煩給個贊和在看~

作者：浩南

點擊上方“3D視覺工坊”，選擇“星標”

干貨第一時間送達

上期文章介紹了用於三維重建的深度學習框架MVSNet[1]，這也是如今比較主流的深度估計的神經網絡框架。框架的原理按照雙目立體匹配框架步驟：匹配代價構造、匹配代價累積、深度估計和深度圖優化四個步驟。使用過MVSNet的同學會發現，MVSNet使用3D的卷積神經網絡對聚合后的代價體進行正則化，防止在學習過程中，受到低概率的錯誤匹配影響。但使用三維卷積神經網絡（U-Net[2]），會造成非常大的GPU消耗，使得我們在使用過程中，受到一定的限制。同時，因為該正則化的模塊，導致普通GPU單卡下無法訓練和測試較高分辨率的影像集，也會影響深度估計范圍和估計精度。圖1 MVSNet代價體正則化針對該問題，本篇文章將介紹CVPR2019的R-MVSNet[3]，並簡單根據代碼，介紹運行步驟和對應的問題。1、R-MVSNetR-MVSNet同樣是香港科技大學姚遙等人在CVPR2019上提出的一種深度學習框架，它在MVSNet的基礎上，解決了正則化過程中GPU消耗大、無法估計較大場景和高分辨率照片的問題。R-MVSNet的網絡結構如下：圖2 R-MVSNet網絡結構和MVSNet的結構類似，給定一個參考影像和與其類似的原始影像，通過2D CNN網絡進行深度特征的提取，每張影像輸出32通道的特征圖。在參考平面掃描算法[4]構造參考影像的匹配代價。形成一個特征體，然后利用GRU結構代替3DCNN對特征體進行深度正則化，防止過擬合現象，輸出表示沿深度方向不同像素所在深度概率的概率體，最后利用“贏者通吃”原則，輸出深度圖。R-MVSNet和MVSNet一樣，隸屬於監督學習的范疇。深度特征提取，匹配代價構造的步驟和MVSNet完全一致，其創新點在於利用循環神經網絡中的GRU結構對代價體進行正則化，有效降低了3D CNN正則化帶來的巨大GPU消耗。以下就該創新做重點闡釋。1.1、回顧MVSNet中的正則化步驟
MVSNet中正則化使用的3D CNN網絡參考的是U-Net（圖3），U-Net可以理解為，先按照左邊的部分進行下采樣，以降低圖片的分辨率，得到大尺度的信息，之后，結合不同尺度的圖像信息，進行上采樣（如灰色所示）。圖3 U-Net結構MVSNet使用U-Net結構進行正則化時，內存消耗會隨着模型增大而立方級別的增大。所以，MVSNets網絡雖然深度估計效率高，但在三維卷積神經網絡正則化過程中GPU資源消耗過大(圖4) ，造成MVSNet可以估計的深度范圍較小，影響深度估計的精度。傳統方法的優化方法只對當前深度那一層信息進行處理，提取深度，而圖4 – c)中，3DCNN則是對全體進行代價體正則化，面臨效率和成本問題。a) 傳統方法的代價累積消耗 b) RNN代價體正則化消耗 c) 3D CNN 代價體正則化消耗圖4 代價體處理消耗示意圖1.2、R-MVSNet中的GRU優化
R-MVSNet網絡提出的替代方式是將代價體分割成沿着深度方向拼接而成的多個代價圖，直接對單個代價圖進行過濾。同時考慮到單個代價圖缺失上下文信息，采用循環神經網絡（GRU結構）過濾整個代價體，使得保證深度圖估計高效率的同時，降低了GPU消耗。堆棧式GRU結構。GRU(Gate-Recurrent Unit)是一種循環神經網絡的結構，和LSTM一樣，設有狀態傳遞和“遺忘”機制，便於逐序處理數據，按照該思路，引入GRU結構(圖5-a)，對代價圖按照深度方向逐序過濾。定義[]為向量相連作為共同輸入輸入，*為矩陣相乘。

圖5 GRU結構示意圖

python test.py --dense_folder TEST_DATA_FOLDER --regularization 'GRU' --max_w 1600 --max_h 1200 --max_d 256 --interval_scale 0.8

注意：

flag --dense_folder 要設定為scan10的地址。
flag –regularization表示正則化代價體的方式，R-MVSNet中使用的是GRU網絡。
圖片的大小可以按照GPU的大小變更參數，但是需要時32的整數倍（特征提取時2D神經網絡要求圖像是32的整數倍）
Max_d 和interval_scale 建議先按照默認的要求，在使用自己的數據時，我們會給出調整的方式
可以和MVSNet比較發現，可用的分辨率和深度估計范圍都得到了提升。

重磅！3DCVer-學術論文寫作投稿 交流群已成立

掃碼添加小助手微信，可申請加入3D視覺工坊-學術論文寫作與投稿微信交流群，旨在交流頂會、頂刊、SCI、EI等寫作與投稿事宜。

一定要備注：研究方向+學校/公司+昵稱，例如：”3D視覺 + 上海交大 + 靜靜“。請按照格式備注，可快速被通過且邀請進群。原創投稿也請聯系。

▲長按加微信群或投稿

▲長按關注公眾號

學習3D視覺核心技術，掃描查看介紹，3天內無條件退款圈里有高質量教程資料、可答疑解惑、助你高效解決問題覺得有用，麻煩給個贊和在看~

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 系列篇|三維重建之純格雷碼三維重建 [二維成像與三維重建]系列(6) 三維重建的簡易原理與總體框架視覺幾何三維重建教程（第2期）：稠密重建，曲面重建，點雲融合，紋理貼圖三維重建技術概述 Kinect實現簡單的三維重建《基於圖像點特征的多視圖三維重建》——相關概念匯總筆記 [二維成像與三維重建]系列(1) 如何設計一個相機 [二維成像與三維重建]系列(4) 小心成像有畸變基於OpenCV做“三維重建”（4）--相機姿態還原和實現三維重建基於Kinect 2.0深度攝像頭的三維重建