3D Object Classification With Point Convolution —— 點雲卷積網絡


今天剛剛得到消息,之前投給IROS 2017的文章收錄了。很久很久沒有寫過博客,今天正好借這個機會來談談點雲卷積網絡的一些細節。

 

1、點雲與三維表達

三維數據后者說空間數據有很多種表達方式,比如:RGB-D 圖像,體素圖像,三維點雲等。這些三維數據的表達方式各有特點:RGB-D 圖像可以直接從Kinect 讀到,而且是規整的,適合直接用於現存的圖像處理框架。體素圖像更直觀的展示物體的三維形貌,更直接的表達物體表面空間位置關系,同時,很容易將圖像中成功的方法推廣到體素圖像中。而三維點雲的表達更加緊湊,同樣分辨考慮情況下,三維點雲的表達占更小的空間(三維點雲可以認為是體素圖像的緊湊編碼,即記錄體素圖像中 occupied voxel 的坐標)。同時,LiDAR 點雲轉RGB - D 會有很多空洞。所以,我們致力於設計一種通用的方法,利用點雲來分析物體表面所傳達的信息。

2、點雲卷積

卷積神經網絡是深度學習中具有代表性的一種模型,很成功的解決了圖像分割,識別,檢測,分析,caption,questioning等不同層次的問題。根據我們的理解,卷積網絡的成功之處在於巨大的容量,可以容納更多信息,在流形中容易形成更好的連續性;從局部到整體層級式的映射,卷積核經過多層映射后有巨大的接受域,模型既含有局部信息又含有物體的整體信息;去中心化的結構,卷積過程中對所有的像素都沒有主觀偏好性。最讓我們感興趣的,是卷積這種操作通過綜合周邊信息和非線性映射來優化局部的表達,又通過局部表達的綜合來給出整體描述。同時,和卷積配合的池化操作可以給模型帶來微小的局部不變性。這些優良的性質啟發了我們將卷積這種操作用在三維數據上。

 

最容易實現的三維卷積網絡是在體素圖像上進行三維卷積操作。但體素圖像往往都有其缺點:1、所謂三維往往是2.5維,物體的自遮擋是無法忽略的,2、三維卷積操作需要多搜索一個維度,3*3*3的三維卷積核計算量近大於在圖像上進行5*5卷積核的操作。同時,100*100*100的三維體素圖像尺寸上相當於1000*1000的二維圖像,所以三維卷積是比較昂貴的操作。3、三維體素圖像(binary, VoxNet)含有大量的空白,也就是0,物體自遮擋,內部信息都是無法訪問的。所以大量的卷積操作都不是很划算。所以我們考慮將卷積這種操作移植到點雲上。

 

點雲本身具有無序性。也就是對點雲進行隨意排序它對物體的表達都是一致的。對無序序列進行訓練本身似乎聽起來是一件不太可能的事情。當前階段的分類網絡都是以泛化(generalization)為主,訓練樣本如果是無序的,那么同一件東西則有完全 非近似 的表達,遑論統一。所以,IROS的工作介紹了如何在點雲上建立順序、卷積操作、以及最后形成網絡的方法。

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM