多視角學習的幾篇文章整理


  最近在調研3D算法方面的工作,整理了幾篇多視角學習的文章。還沒調研完,先寫個大概。
  因為直接用2D的卷積神經網絡方法並不能很好的處理3D任務,這幾篇文章主要偏向於將3D模型從多個角度變換成多張2D的圖像,然后使用2D領域的方法處理3D任務。所以大家主要涉及到兩個問題:1、視角選擇問題(如何選擇視角?選擇幾個視角?如果能夠主動的選擇顯著性視角就更好了);2、視角特征信息的融合。

1、(ICCV2015)MVCNN:Multi-view Convolutional Neural Networks for 3D Shape Recognition

論文地址:https://arxiv.org/abs/1505.00880
代碼:https://github.com/suhangpro/mvcnn

  該篇文章被認為是多視角學習的開山之作;

  簡單的求一個3D形狀的多視角圖像的特征描述子的平均值,或者簡單的將這些特征描述子做“連接”(這地方可以想象成將特征簡單的“串聯”),會導致不好的效果。所以,我們集中於融合多視角2D圖像產生的特征,以便綜合這些信息,形成一個簡單、高效的3D形狀描述子。
  因此,我們設計了Multi-view CNN(MVCNN),放在基礎的2D圖像CNN之中。如圖所示,同一個3D形狀的 每一張視角圖像 各自獨立地經過第一段的CNN1卷積網絡,在一個叫做View-pooling層進行“聚合”。之后,再送入剩下的CNN2卷積網絡。整張網絡第一部分的所有分支,共享相同的 CNN1里的參數。在View-pooling層中,我們逐元素取最大值操作,另一種是求平均值操作,但在我們的實驗中,這並不有效。這個View-pooling層,可以放在網絡中的任何位置。經過我們的實驗,這一層最好放在最后的卷積層(Conv5),以最優化的執行分類與檢索的任務。

參考:https://blog.csdn.net/qq_25011449/article/details/81029812
https://blog.csdn.net/khflash/article/details/80154051

2、(CVPR2016) Volumetric and multi-view CNNs for object classification on 3D data

論文地址:https://arxiv.org/abs/1604.03265
代碼:https://github.com/charlesq34/3dcnn.torch

3、(BMVC2017)DSCNN:Dominant Set Clustering and Pooling for Multi-View 3D Object Recognition

論文地址:https://arxiv.org/abs/1906.01592?utm_source=feedburner&utm_medium=feed&utm_campaign=Feed%3A+arxiv%2FQSXk+%28ExcitingAds%21+cs+updates+on+arXiv.org%29
代碼:https://github.com/fate3439/dscnn

4、(CVPR2018)GVCNN: Group-View Convolutional Neural Networks for 3D Shape Recognition

論文地址:
https://openaccess.thecvf.com/content_cvpr_2018/html/Feng_GVCNN_Group-View_Convolutional_CVPR_2018_paper.html
代碼:https://github.com/ace19-dev/gvcnn-tf
https://github.com/LemingGuo/gvcnn

  這篇文章在MVCNN的基礎之上,提出了group-view convolutional neural network(GVCNN)。

  MVCNN的做法就是模擬相機從若干不同的角度拍攝三維物體,得到投影的二維圖像,然后分別利用ImageNet下預訓練的網絡提取特征,隨后通過view pooling,即全局最大池化將各視角下的特征聚合起來,再接分類網絡。

  作者認為,MVCNN並沒有將多視角下特征之間的關系有效地利用起來,這也會在一定程度上限制最后的特征描述子的可區分力。
• 一方面,一些視角彼此相類似,然后有一些則差異較大。這些相似的視角對於3D物體形狀的表示所起到的作用應該是同等的。
• 另一方面,有一部分視角則能提取到更有用的特征。

  也正是為了解決上述的問題,才提出了GVCNN。

  圖1中是整個GVCNN的網絡架構。

• GVCNN采用GoogLeNet作為基礎網絡。
• "FCN"是GoogleNet的前5個卷積層。
• 中間的"CNN"指的是也是GoogLeNet。
• "FC"是全連接層。

  GVCNN首先從若干不同視角拍攝三維模型的二維圖像,每個視角的圖像都被送入了第一部分的"FCN"中提取視覺描述子。隨后,第二部分的CNN網絡進一步提取視覺特征,group模塊再根據判別力評分將不同視角的特征子進行分組。最后將各個組的視覺特征描述子通過view pooling(全局池化)聚合到一起。再接上分類網絡進行分類。

  多視角視覺特征、Grouping模塊、組內視角池化、組間特征融合,這五部分詳細看論文。
參考:https://blog.csdn.net/hongbin_xu/article/details/96699145

5、(CVPR2018)MHBN:Multi-view Harmonized Bilinear Network for 3D Object Recognition

論文地址:https://openaccess.thecvf.com/content_cvpr_2018/html/Yu_Multi-View_Harmonized_Bilinear_CVPR_2018_paper.html
代碼:https://github.com/LiyuanLacfo/MHBNN-PyTorch

6、(TMM2018)Learning multi-view representation with LSTM for 3D shape recognition and retrieval

論文地址:
代碼:https://github.com/charlesq34/3dcnn.torch

7、(CVPR2018)RotationNet: Joint Object Categorization and Pose Estimation Using Multiviews from Unsupervised Viewpoints

論文地址:https://arxiv.org/abs/1603.06208
代碼:https://github.com/kanezaki/pytorch-rotationnet

8、(ICCV2019)Learning Relationships for Multi-View 3D Object Recognition

論文地址:https://openaccess.thecvf.com/content_ICCV_2019/html/Yang_Learning_Relationships_for_Multi-View_3D_Object_Recognition_ICCV_2019_paper.html
代碼:無

9、(CVPR2020)View-gcn: View-based graph convolutional network for 3D shape analysis

論文地址:https://openaccess.thecvf.com/content_CVPR_2020/html/Wei_View-GCN_View-Based_Graph_Convolutional_Network_for_3D_Shape_Analysis_CVPR_2020_paper.html
代碼:https://github.com/weixmath/view-GCN

  不同視角下看不同物體可能是不同的。因而,不同視圖圖像的聯系可能隱藏了3D物體的潛在信息,這將為3D物體形狀識別提供有價值的信息。因而,作者設計了GCN來自動調差視圖間的關系。

  主要挑戰:如何聚合多視圖特征成為一個全局的3D形狀描述。

  傳統方法:通過最大池化來聚合多視圖特征,該方法是置換不變的,但忽略了視圖之間的關系。

  該方法:使用view-Graph來表示物體的3D形狀,每一個視圖對應圖中一個節點。如圖1所示。節點間的邊由攝像機坐標的k近鄰確定。在此基礎上設計了一種圖卷積神經網絡view-GCN用於聚合多視圖特征以學習全局形狀描述子。

  View-GCN是一個層次化的GCN架構,在越來越粗糙的視圖上有多個層次。每層設計了一個局部圖卷積操作 + 一個非局部消息傳遞操作,通過研究相鄰圖和遠程成對視圖之間的關系來聚合多視圖特征。為使圖粗化,提出了一種選擇性視圖抽樣策略,通過視圖選擇器對有代表性的視圖進行抽樣。所有學習到的不同層次的特征被組合成一個全局形狀描述子。

參考:https://blog.csdn.net/qq_38904659/article/details/107341099
https://blog.csdn.net/weixin_43882112/article/details/108464941

10、(CVPR2020)End-to-End Learning Local Multi-view Descriptors for 3D Point Clouds

論文地址:https://arxiv.org/abs/2003.05855
代碼:https://github.com/craigleili/3DLocalMultiViewDesc


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM