一、數據來源
COCO中圖片資源均引用自Flickr圖片網站
二、數據集創建目的
進行圖像識別訓練,主要針對以下三個方向:
(1)object instances
(2)object keypoints
(3) image captions
每個方向均包含訓練和驗證集兩個標注文件
三、標注體結構
三個方向均共享基本類型信息,包括info、image、license三個字段,而annotation字段則各不相同。
3.1 通用字段介紹
- 通用-Info字段
例:
- 通用-image字段
例:
- 通用-licence字段
例:
3.2 變體字段介紹
- annotation-Object Instance
iscrowd=0:表示這是一個單獨的物體,輪廓用Polygon(多邊形的點)表示,即segmentation字段用Polygon表示
iscrowd=1:表示兩個或多個沒有分開的物體,輪廓用RLE編碼表示,即segmention字段用RLE編碼形式表示
- annotation-Object keypoint
相比於object Instance標注,增加了兩個字段:Keypoints和num_keypoints
keypoints是一個長度為3*k的數組,其中k是keypoints的總數量。
keypoints[i][0] 和keypoints[i][1]為(x,y),keypoints[i][2]為標志位v
v=0-關鍵點未標注,v=2-關鍵點已標注且不可見,v=3-關鍵點已標注且可見

category字段:
keypoints字段記錄了關鍵點名字數組,skeleton定義了各個關鍵點之間的連接性(如手腕和肘)。keypoints的supercategory只標注了person 。
Image Caption類型的標注相對於上面來說很簡單,這里就略過不表了