作者: Tom Hardy
來源:公眾號@3D視覺工坊
前言
ECCV2020的oral和spotlight名單已經發布,與往年相比,accepted paper list中增加了很多3D方向相關的作品,實在值得鼓舞。工坊對這些優秀作品進行了跟進,今天和大家分享下ECCV2020中3D方向相關的oral和spotlight,涉及點雲處理、3D檢測識別、三維重建、立體視覺、姿態估計、深度估計、SFM等~
點雲相關
1、Quaternion Equivariant Capsule Networks for 3D Point Clouds
文章鏈接:https://arxiv.org/pdf/1912.12098.pdf文章主要提出了一種用於處理點雲的3D膠囊網絡結構,可用於3D識別與方向估計。
2、Intrinsic Point Cloud Interpolation via Dual Latent Space Navigation
文章鏈接:https://arxiv.org/pdf/2004.01661v1.pdf論文提出了一種基於學習的方法,用於對表示為點雲的3D形狀進行插值,該方法可用於保留固有的形狀屬性。
3、PointMixup: Augmentation for Point Clouds
Paper暫未開放
4、PointContrast: Unsupervised Pretraining for 3D Point Cloud Understanding
Paper暫未開放
三維重建
1、Ladybird: Deep Implicit Field Based 3D Reconstruction with Sampling and Symmetry
Paper未開放
2、Deep Fashion3D: A Dataset and Benchmark for 3D Garment Reconstruction from Single-view Images
文章鏈接:https://arxiv.org/pdf/2003.12753.pdf論文主要開源了單視圖圖像重建3D服裝的數據集
3、Combining Implicit Function Learning and Parametric Models for 3D Human Reconstruction
Paper暫未開放
4、Coherent full scene 3D reconstruction from a single RGB image
文章鏈接:https://arxiv.org/pdf/2004.12989.pdf深度學習技術的進步允許最近的工作在僅輸入一個RGB圖像的情況下重建單個對象的形狀。基於此任務的通用編碼器-解碼器體系結構,論文提出了三個擴展:(1)以物理上正確的方式將本地2D信息傳播到3D體積;(2)混合3D體積表示,它可以建立翻譯等變模型,同時在不占用過多內存的情況下對精細的對象詳細信息進行編碼;(3)專為捕獲整體物體幾何形狀而設計的重建損失。此外,論文還調整模型以解決從單個圖像重建多個對象的艱巨任務。
5、Deep Reflectance Volumes: Relightable Reconstructions from Multi-View Photometric Images
Paper暫未開放
場景識別
1、ReferIt3D: Neural Listeners for Fine-Grained 3D Object Identification in Real-World Scenes
Paper暫未開放
3D檢測與識別
1、RTM3D: Real-time Monocular 3D Detection from Object Keypoints for Autonomous Driving
文章鏈接:https://arxiv.org/pdf/2001.03343.pdf源碼鏈接:https://github.com/Banconxuan/RTM3D(即將開源)論文提出了一種有效且准確的單目3D檢測框架,文中的方法預測圖像空間中3D邊界框的九個透視關鍵點,然后利用3D和2D透視的幾何關系恢復3D空間中的尺寸,位置和方向。通過這種方法,即使關鍵點的估計非常嘈雜,也可以穩定地預測對象的屬性,這使得能夠以較小的架構獲得快速的檢測速度。該方法是第一個用於單目圖像3D檢測的實時系統,同時在KITTI基准上達到了SOTA。
姿態估計
1、Self6D: Self-Supervised Monocular 6D Object Pose Estimation
文章鏈接:https://arxiv.org/pdf/2004.06468.pdf針對深度學習單目姿態估計下的數據難獲取這一缺點,論文提出了通過自監督學習方式進行單目6D姿態估計的方法,該方法消除了對帶有注釋的真實數據的需求。
2、End-to-End Estimation of Multi-Person 3D Poses from Multiple Cameras
文章鏈接:https://www.researchgate.net/publication/340644214_End-to-End_Estimation_of_Multi-Person_3D_Poses_from_Multiple_Cameras論文提出了一種從多個攝像機視圖估計多個人的3D姿勢的方法。與之前需要基於嘈雜和不完整的2D姿勢估計來建立跨視圖對應關系的工作相反,論文提出了一種直接在 3 D空間運行的端到端解決方案。
3、Multi-person 3D Pose Estimation in Crowded Scenes Based on Multi-View Geometry
Paper未開放
4、Towards Part-aware Monocular 3D Human Pose Estimation: An Architecture Search Approach
Paper未開放
5、Adaptive Computationally Efficient Network for Monocular 3D Hand Pose Estimation
Paper未開放
深度估計
1、Du^2Net: Learning Depth Estimation from Dual-Cameras and Dual-Pixels
文章鏈接:https://arxiv.org/pdf/2003.14299v1.pdf計算方式的stereo已經達到了很高的准確性,但是由於存在遮擋,重復的紋理以及沿邊緣的對應誤差,會降低stereo效果。論文提出了一種基於神經網絡的深度估計新方法,該方法將雙攝像頭的stereo與雙像素傳感器的stereo相結合,這在消費類攝像頭上越來越普遍。網絡使用新穎的架構來融合這兩個信息源,並且可以克服純雙目立體聲匹配的上述限制。論文的方法提供了具有銳利邊緣的密集深度圖,這對於計算攝影應用(如合成淺景深或3D照片)至關重要。目前進行的實驗和與最先進方法的比較表明,論文的方法比以前的工作有了實質性的改進。
立體視覺
1、Learning Stereo from Single Images
Paper未開放
2、Domain-invariant Stereo Matching Networks
文章鏈接:https://arxiv.org/pdf/1911.13287.pdf代碼鏈接:https://github.com/feihuzhang/DSMNet由於大量的領域差異(例如顏色,照明,對比度和紋理),最新的立體匹配網絡難以推廣到新的環境,本文旨在設計一種可以很好推廣到陌生場景下的立體匹配網絡(DSMNet)。
SFM相關
1、DeepSFM: Structure From Motion Via Deep Bundle Adjustment
文章鏈接:https://arxiv.org/pdf/1912.09697.pdf
2、Privacy Preserving Structure-from-Motion
Paper未開放
其它作品
1、DeepFit: 3D Surface Fitting by Neural Network Weighted Least Squares
文章鏈接:https://arxiv.org/pdf/2003.10826.pdf論文提出了一種用於非結構化3D點雲的表面擬合方法,稱為DeepFit的方法並入了一個神經網絡,以學習加權最小二乘多項式曲面擬合的逐點權重。
2、DeepHandMesh: Weakly-supervised Deep Encoder-Decoder Framework for High-fidelity Hand Mesh Modeling from a Single RGB Image
Paper未開放
3、Mask2CAD: 3D Shape Prediction by Learning to Segment and Retrieve
Paper未開放本文僅做學術分享,如有侵權,請聯系刪文。