多視角學習的幾篇文章整理

本文轉載自查看原文 2020-12-12 13:22 1069 其他方向

最近在調研3D算法方面的工作，整理了幾篇多視角學習的文章。還沒調研完，先寫個大概。
因為直接用2D的卷積神經網絡方法並不能很好的處理3D任務，這幾篇文章主要偏向於將3D模型從多個角度變換成多張2D的圖像，然后使用2D領域的方法處理3D任務。所以大家主要涉及到兩個問題：1、視角選擇問題（如何選擇視角？選擇幾個視角？如果能夠主動的選擇顯著性視角就更好了）；2、視角特征信息的融合。

１、（ICCV2015）MVCNN：Multi-view Convolutional Neural Networks for 3D Shape Recognition
２、(CVPR2016) Volumetric and multi-view CNNs for object classification on 3D data
３、（BMVC2017）DSCNN：Dominant Set Clustering and Pooling for Multi-View 3D Object Recognition
４、（CVPR2018）GVCNN: Group-View Convolutional Neural Networks for 3D Shape Recognition
５、（CVPR2018）MHBN：Multi-view Harmonized Bilinear Network for 3D Object Recognition
６、（TMM2018）Learning multi-view representation with LSTM for 3D shape recognition and retrieval
７、（CVPR2018）RotationNet: Joint Object Categorization and Pose Estimation Using Multiviews from Unsupervised Viewpoints
８、（ICCV2019）Learning Relationships for Multi-View 3D Object Recognition
９、（CVPR2020）View-gcn: View-based graph convolutional network for 3D shape analysis
１０、（CVPR2020）End-to-End Learning Local Multi-view Descriptors for 3D Point Clouds

１、（ICCV2015）MVCNN：Multi-view Convolutional Neural Networks for 3D Shape Recognition

論文地址：https://arxiv.org/abs/1505.00880
代碼：https://github.com/suhangpro/mvcnn

該篇文章被認為是多視角學習的開山之作；

簡單的求一個3D形狀的多視角圖像的特征描述子的平均值，或者簡單的將這些特征描述子做“連接”（這地方可以想象成將特征簡單的“串聯”），會導致不好的效果。所以，我們集中於融合多視角2D圖像產生的特征，以便綜合這些信息，形成一個簡單、高效的3D形狀描述子。
因此，我們設計了Multi-view CNN（MVCNN），放在基礎的2D圖像CNN之中。如圖所示，同一個3D形狀的每一張視角圖像各自獨立地經過第一段的CNN1卷積網絡，在一個叫做View-pooling層進行“聚合”。之后，再送入剩下的CNN2卷積網絡。整張網絡第一部分的所有分支，共享相同的 CNN1里的參數。在View-pooling層中，我們逐元素取最大值操作，另一種是求平均值操作，但在我們的實驗中，這並不有效。這個View-pooling層，可以放在網絡中的任何位置。經過我們的實驗，這一層最好放在最后的卷積層（Conv5），以最優化的執行分類與檢索的任務。

參考：https://blog.csdn.net/qq_25011449/article/details/81029812
https://blog.csdn.net/khflash/article/details/80154051

２、(CVPR2016) Volumetric and multi-view CNNs for object classification on 3D data

論文地址：https://arxiv.org/abs/1604.03265
代碼：https://github.com/charlesq34/3dcnn.torch

３、（BMVC2017）DSCNN：Dominant Set Clustering and Pooling for Multi-View 3D Object Recognition

論文地址：https://arxiv.org/abs/1906.01592?utm_source=feedburner&utm_medium=feed&utm_campaign=Feed%3A+arxiv%2FQSXk+%28ExcitingAds%21+cs+updates+on+arXiv.org%29
代碼：https://github.com/fate3439/dscnn

４、（CVPR2018）GVCNN: Group-View Convolutional Neural Networks for 3D Shape Recognition

論文地址：
https://openaccess.thecvf.com/content_cvpr_2018/html/Feng_GVCNN_Group-View_Convolutional_CVPR_2018_paper.html
代碼：https://github.com/ace19-dev/gvcnn-tf
https://github.com/LemingGuo/gvcnn

這篇文章在MVCNN的基礎之上，提出了group-view convolutional neural network（GVCNN）。

MVCNN的做法就是模擬相機從若干不同的角度拍攝三維物體，得到投影的二維圖像，然后分別利用ImageNet下預訓練的網絡提取特征，隨后通過view pooling，即全局最大池化將各視角下的特征聚合起來，再接分類網絡。

作者認為，MVCNN並沒有將多視角下特征之間的關系有效地利用起來，這也會在一定程度上限制最后的特征描述子的可區分力。
• 一方面，一些視角彼此相類似，然后有一些則差異較大。這些相似的視角對於3D物體形狀的表示所起到的作用應該是同等的。
• 另一方面，有一部分視角則能提取到更有用的特征。

也正是為了解決上述的問題，才提出了GVCNN。

圖1中是整個GVCNN的網絡架構。

• GVCNN采用GoogLeNet作為基礎網絡。
• "FCN"是GoogleNet的前5個卷積層。
• 中間的"CNN"指的是也是GoogLeNet。
• "FC"是全連接層。

GVCNN首先從若干不同視角拍攝三維模型的二維圖像，每個視角的圖像都被送入了第一部分的"FCN"中提取視覺描述子。隨后，第二部分的CNN網絡進一步提取視覺特征，group模塊再根據判別力評分將不同視角的特征子進行分組。最后將各個組的視覺特征描述子通過view pooling（全局池化）聚合到一起。再接上分類網絡進行分類。

多視角視覺特征、Grouping模塊、組內視角池化、組間特征融合，這五部分詳細看論文。
參考：https://blog.csdn.net/hongbin_xu/article/details/96699145

５、（CVPR2018）MHBN：Multi-view Harmonized Bilinear Network for 3D Object Recognition

論文地址：https://openaccess.thecvf.com/content_cvpr_2018/html/Yu_Multi-View_Harmonized_Bilinear_CVPR_2018_paper.html
代碼：https://github.com/LiyuanLacfo/MHBNN-PyTorch

６、（TMM2018）Learning multi-view representation with LSTM for 3D shape recognition and retrieval

論文地址：
代碼：https://github.com/charlesq34/3dcnn.torch

７、（CVPR2018）RotationNet: Joint Object Categorization and Pose Estimation Using Multiviews from Unsupervised Viewpoints

論文地址：https://arxiv.org/abs/1603.06208
代碼：https://github.com/kanezaki/pytorch-rotationnet

８、（ICCV2019）Learning Relationships for Multi-View 3D Object Recognition

論文地址：https://openaccess.thecvf.com/content_ICCV_2019/html/Yang_Learning_Relationships_for_Multi-View_3D_Object_Recognition_ICCV_2019_paper.html
代碼：無

９、（CVPR2020）View-gcn: View-based graph convolutional network for 3D shape analysis

論文地址：https://openaccess.thecvf.com/content_CVPR_2020/html/Wei_View-GCN_View-Based_Graph_Convolutional_Network_for_3D_Shape_Analysis_CVPR_2020_paper.html
代碼：https://github.com/weixmath/view-GCN

不同視角下看不同物體可能是不同的。因而，不同視圖圖像的聯系可能隱藏了3D物體的潛在信息，這將為3D物體形狀識別提供有價值的信息。因而，作者設計了GCN來自動調差視圖間的關系。

主要挑戰：如何聚合多視圖特征成為一個全局的3D形狀描述。

傳統方法：通過最大池化來聚合多視圖特征，該方法是置換不變的，但忽略了視圖之間的關系。

該方法：使用view-Graph來表示物體的3D形狀，每一個視圖對應圖中一個節點。如圖1所示。節點間的邊由攝像機坐標的k近鄰確定。在此基礎上設計了一種圖卷積神經網絡view-GCN用於聚合多視圖特征以學習全局形狀描述子。

View-GCN是一個層次化的GCN架構，在越來越粗糙的視圖上有多個層次。每層設計了一個局部圖卷積操作 + 一個非局部消息傳遞操作，通過研究相鄰圖和遠程成對視圖之間的關系來聚合多視圖特征。為使圖粗化，提出了一種選擇性視圖抽樣策略，通過視圖選擇器對有代表性的視圖進行抽樣。所有學習到的不同層次的特征被組合成一個全局形狀描述子。

參考：https://blog.csdn.net/qq_38904659/article/details/107341099
https://blog.csdn.net/weixin_43882112/article/details/108464941

１０、（CVPR2020）End-to-End Learning Local Multi-view Descriptors for 3D Point Clouds

論文地址：https://arxiv.org/abs/2003.05855
代碼：https://github.com/craigleili/3DLocalMultiViewDesc

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 分享幾篇文章（PDF版） SOSP 2019關注的幾篇文章 mongoose和mongodb的幾篇文章（ObjectId，ref）使用Jupyter lab前應該讀的幾篇文章從枚舉到數據字典到數據標准化的幾篇文章讀后參考離線包方案參考思考過程-總結了幾篇文章關於redash 自定義可視化以及query runner 開發的幾篇文章用甄嬛的視角看待《對.NET系統架構改造的一點經驗和教訓》這篇文章幾篇關於RGBD語義分割文章的總結（轉） TensorFlow深度學習，一篇文章就夠了