1 SUN RGB-D
論文:SUN RGB-D: A RGB-D Scene Understanding Benchmark Suite
數據集地址:http://3dvision.princeton.edu/projects/2015/SUNrgbd/
簡介:用於室內場景理解的RGBD數據集。
數據:共10335張RGBD圖像。來源於自己采集(3784+1159張),NYU Depth V2數據集(1449張),Berkeley B3DO數據集挑選(554張),SUN3D視頻中挑選(3389張)。采集設備包括Intel Realsense,Asus Xtion,Kinect v1,Kinect v2。
標注:除了NYU數據集中的分割標注被直接采用,其他所有圖像都進行了重新標注。
任務:
- 場景分類(Scene Categorization):對給定的一張RGBD圖片所在場景進行分類。
- 語義分割(Semantic Segmentation):對RGB-D圖像中的每一個像素的語義標簽進行預測。
- 物體檢測(Object Detection):2D和3D的物體檢測。
- 物體朝向預測(Object Orientation):預測物體bounding box的方向,由於預先進行了對齊,所有只有一個自由度的偏向角。
- 房間布局預測(Room Layout Estimation):場景的空間布局預測,用於推測自由空間。
- 場景完全理解(Total Scene Understanding):預測整個場景中的3D物體和空間布局。
2 SUN3D
論文:SUN3D: A Database of Big Spaces Reconstructed using SfM and Object Labels
數據集地址:http://sun3d.cs.princeton.edu/
簡介:用於室內場景理解的RGBD視頻數據集。
數據:共415段視頻序列,取自41個不同建築內的254個不同的空間。
標注:相機位姿,視頻實例分割標注。先通過SFM獲取初始相機位姿;然后進行視頻物體標注,具體做法是利用估計的初始位姿和補全的深度圖(TSDF方法)對視頻中關鍵幀的標注進行傳播,因此只需要手動修正傳播錯誤的部分,降低了對視頻標注的工作量;最后利用標注進一步優化修正估計的位姿。
3 ScanNet
論文:ScanNet: Richly-annotated 3D Reconstructions of Indoor Scenes
數據集地址:http://www.scan-net.org/
簡介:室內場景理解數據集。
數據:共1513個場景掃描數據。提供了重建的mesh,但是一般都不直接處理mesh。
標注:相機位姿,表面重建和實例級語義分割。
任務:
- 3D物體分類:對給定Bounding box內的物體進行分類。
- 語義體素標記:2D語義分割的推廣,對每一個體素(voxel)進行語義預測。
- CAD模型檢索:給定一個掃描的RGBD物體,檢索出相應的CAD模型。這需要學習到兩者的幾何結構相似性。