本篇博客主要以介紹MS COCO數據集為目標,分為3個部分:COCO介紹,數據集分類和COCO展示。
本人主要下載了其2014年版本的數據,一共有20G左右的圖片和500M左右的標簽文件。標簽文件標記了每個segmentation+bounding box的精確坐標,其精度均為小數點后兩位。一個目標的標簽示意如下:
{"segmentation":[[392.87, 275.77, 402.24, 284.2, 382.54, 342.36, 375.99, 356.43, 372.23, 357.37, 372.23, 397.7, 383.48, 419.27,407.87, 439.91, 427.57, 389.25, 447.26, 346.11, 447.26, 328.29, 468.84, 290.77,472.59, 266.38], [429.44,465.23, 453.83, 473.67, 636.73, 474.61, 636.73, 392.07, 571.07, 364.88, 546.69,363.0]], "area": 28458.996150000003, "iscrowd": 0,"image_id": 503837, "bbox": [372.23, 266.38, 264.5,208.23], "category_id": 4, "id": 151109},
具體的segmentation后面的數字到底是什么,說明有詳細介紹,是分為RLE和Polygon兩種形式的標簽,具體標簽說明見: http://mscoco.org/dataset/#download
下面來介紹一下這個數據集。
COCO簡介:
COCO數據集是微軟團隊獲取的一個可以用來圖像recognition+segmentation+captioning 數據集,其官方說明網址:http://mscoco.org/。
該數據集主要有的特點如下:(1)Object segmentation(2)Recognition in Context(3)Multiple objects per image(4)More than 300,000 images(5)More than 2 Million instances(6)80 object categories(7)5 captions per image(8)Keypoints on 100,000 people
為了更好的介紹這個數據集,微軟在ECCV Workshops里發表這篇文章:Microsoft COCO: Common Objects in Context。從這篇文章中,我們了解了這個數據集以scene understanding為目標,主要從復雜的日常場景中截取,圖像中的目標通過精確的segmentation進行位置的標定。圖像包括91類目標,328,000影像和2,500,000個label。
該數據集主要解決3個問題:目標檢測,目標之間的上下文關系,目標的2維上的精確定位。數據集的對比示意圖:
數據集分類:
Image Classification:
分類需要二進制的標簽來確定目標是否在圖像中。早期數據集主要是位於空白背景下的單一目標,如MNIST手寫數據庫,COIL household objects。在機器學習領域的著名數據集有CIFAR-10 and CIFAR-100,在32*32影像上分別提供10和100類。最近最著名的分類數據集即ImageNet,22,000類,每類500-1000影像。
Object Detection:
經典的情況下通過bounding box確定目標位置,期初主要用於人臉檢測與行人檢測,數據集如Caltech Pedestrian Dataset包含350,000個bounding box標簽。PASCAL VOC數據包括20個目標超過11,000圖像,超過27,000目標bounding box。最近還有ImageNet數據下獲取的detection數據集,200類,400,000張圖像,350,000個bounding box。由於一些目標之間有着強烈的關系而非獨立存在,在特定場景下檢測某種目標是是否有意義的,因此精確的位置信息比bounding box更加重要。
Semantic scene labeling:
這類問題需要pixel級別的標簽,其中個別目標很難定義,如街道和草地。數據集主要包括室內場景和室外場景的,一些數據集包括深度信息。其中,SUN dataset包括908個場景類,3,819個常規目標類(person, chair, car)和語義場景類(wall, sky, floor),每類的數目具有較大的差別(這點COCO數據進行改進,保證每一類數據足夠)。
Other vision datasets:
一些數據集如Middlebury datasets,包含立體相對,多視角立體像對和光流;同時還有Berkeley Segmentation Data Set (BSDS500),可以評價segmentation和edge detection算法。
COCO展示:
該數據集標記流程如下:
COCO數據集有91類,雖然比ImageNet和SUN類別少,但是每一類的圖像多,這有利於獲得更多的每類中位於某種特定場景的能力,對比PASCAL VOC,其有更多類和圖像。
COCO數據集分兩部分發布,前部分於2014年發布,后部分於2015年,2014年版本:82,783 training, 40,504 validation, and 40,775 testing images,有270k的segmented people和886k的segmented object;2015年版本:165,482 train, 81,208 val, and 81,434 test images。
其性能對比和一些例子: