使用卷積神經網絡(CNN)架構的深度學習(DL)現在是解決圖像分類任務的標准解決方法。但是將此用於處理3D數據時,問題變得更加復雜。首先,可以使用各種結構來表示3D數據,所述結構包括:
1 體素網格
2 點雲
3 多視圖
4 深度圖
對於多視圖和深度圖的情況,該問題被轉換為在多個圖像上使用2D CNN解決。通過簡單定義3D卷積核,可以將2D CNN的擴展用於3D Voxel網格。但是,對於3D點雲的情況,目前還不清楚如何應用DL工具。但是之前也已經有幾種解決辦法了,具體可以參看 http://www.cnblogs.com/li-yao7758258/p/8182846.html 的總結
以及最近山東大學研究者們提出的PointCNN,對於pointCNN 這篇論文是一種為基於點雲的特征學習提出了一種簡單且通用的框架。CNN成功的關鍵是要能利用數據中以網格形式密集表示的空間上的局部相關性(比如圖像)。但是,點雲是不規則和無序的,因此在這些點關聯的特征上直接求核的卷積會導致形狀信息的丟失,同時還會因順序不同而不同。為了解決這些問題,提出了根據輸入點學習一種X變換,然后將其用於同時加權與點關聯的輸入特征和將它們重新排列成潛在隱含的規范順序,之后再在元素上應用求積和求和運算。我們提出的方法是典型CNN向基於點雲的特征學習的泛化,因此將其稱為PointCNN。實驗表明,PointCNN能在多種有挑戰性的基准數據集和任務上實現與之前最佳方法媲美或更好的表現。
PointCNN與其他方法的對比
其次,圖像的可用數據比較多,盡管最近3D數據集的數量有所增加 。但是,對於3D情況,可以容易地生成合成數據。
下面附有在3D數據上使用DL工具的論文列表
- Voxel Grid – Volumetric CNN:
- Voxnet: A 3D convolutional neural network for real-time object classification
- Volumetric and multi-view CNNs for object classification on 3d data – compared volumetric CNNs to Multi-view CNNs for object classification. They showed that the multi-view approach performs better, however, the resolution of the volumetric model was limited
- 3D shapenetes: A deep representation for volumetric shapes
- Multi-View CNNs:
- Point clouds:
- Pointnet: Deep learning on point sets for 3d classification and segmentation – In this work they applied a convolution kernel on each point separately, creating a higher dimensional representation of each point and then max-pooling over the entire point set (max pooling used as a symmetric function) to get invariance to permutations of the input cloud (since there is no geometrical significance to the point order).
- Hand-crafted features + DNN :
- 3D deep shape descriptor – fed heat kernel signatures (HKS) descriptor into an NN to get an Eigen-shape descriptor and a Fischer shape descriptor.
有問題請指出,同時歡迎大家關注微信公眾號
或者加入3D視覺微信群一起交流分享