以下為我總結出的論文各部分的主要內容,某些地方可能夾帶着一些自己的理解和思考。
摘要
-
該論文/該數據集的目的
推動目標識別領域的技術突破
-
數據集概要
- 320k張圖片,250萬個實例,91種實例類型
- 標注類型:實例分割
- 該數據集的主要創新:實例是放在natural context中的,並且語境有很多種而非人為定義的背景中,看Fig1就懂這一點創新了
-
本文工作
- 制作該數據集
- 統計分析該數據集,並與其它3個數據集做比較
- 使用DPM,提供該數據集的目標檢測和實例分割的baseline,並分析其performance
引言
-
場景理解包含的任務
- 圖像分類:識別目標的種類
- 定位:定位2D或3D目標
- 確定目標和場景的屬性
- 描述物體間的關系
- 提供場景的語義描述
-
該數據集解決場景理解中3個核心研究問題
- 檢測非圖標的目標。圖標型目標,比如百度搜到的那種自行車,絕大多數都是背景很空,中間放了個自行車;自然型目標,比如人在騎自行車,停車場中的自行車,背景、語義的差異是極大的。可以看Fig.2
- 對象之間的上下文推理,即上面第4個任務
- 目標的精確2D定位,即上面第2個任務中的實例分割
-
假設存在的問題並在該數據集上證明
現在的視覺識別系統識別圖標型目標的能力相當好,但識別自然場景中的目標的能力卻不好
-
一個觀點
理解目標的空間位置關系,將成為場景分析的核心部分
-
數據集里的圖片怎么來的?
- 搜索兩個目標
- 搜索場景
-
在標注時,分步進行,由於標注工作的不確定性在每個階段中做了很多權衡
-
和其它數據集的區別,詳見Fig.5
- 和ImageNet對比,COCO有更少類別,但每個類別有更多實例,更有利於目標的定位
- 和ImageNet、VOC、SUN相比,該數據集每個類別都有更多實例,更關鍵的是每張圖中實例更多,有利於學習目標間的關系
- 和ImageNet相比、VOC相比,該數據集每張圖里的實例更多;SUN一張圖里的實例則比該數據集高,但整體上數據集中的實例更少。
相關工作
該數據集依次解決3個問題:
- 圖像分類
- 目標檢測
- semantic scene labeling
圖像分類
-
圖像分類做什么
給出二進制標簽,指出圖片中是否包含某目標,見Fig1(a)
-
進展
- MNIST、COIL等數量少,甚至只有一種類別
- CIFAR-10 and CIFAR-100,類別多了些,但還很少且是入門級別entry-level,和人類認知相差很多
- ImageNet突然實現數量和類別(both entry-level and fine-grained)的大增長
目標檢測
-
目標檢測做什么
識別並定位某物體,典型的定位方式是矩形框,見Fig.1(b)
-
發展
- 人臉識別,先是各種臨時數據集,后來出現了更復雜的
- 行人識別,Caltech Pedestrian Dataset
- 基礎目標識別,2005到2012年多年努力,VOC數據集
語義分割
-
語義分割做什么
確定圖片里每個像素屬於什么類別,即使是“背景”,見Fig.1(c)
-
發展
很難標注,比如草、街道;有室內和室外的數據集;有些數據集還有深度信息(什么意思?沒懂)
- SUN數據集,長尾現象(類別數量不平衡,比如wall有20213個,但boat只有349個)
- 該數據集(COCO)保證每個類別有大量實例
其它視覺數據集
- Middlebury datasets,立體視覺,多視圖立體,光流
- Berkeley Segmentation Data Set(BSDS500),分割,邊緣檢測
圖片收集
如何選擇目標的類別以及候選圖片
常見目標類別
-
對類別的要求
- 所有類別中有代表性的那些類別
- 和現實應用相關
- 高頻出現以保證數據集數據多
-
其它類別
是否要包括stuff、thing,是否要包括細粒度(Fine-grained)、對象部分(object-part)
-
thing:很容易區分和標注,比如person、chair。該數據集中做了標注
-
stuff:沒有明顯邊界,比如sky、street、grass。
該數據集中沒有標注,stuff包含了重要的上下文信息,對其標注是有益的,這一點可以改進
-
-
類別細分度
- 例:牧羊犬是狗,狗也是哺乳動物
- 為使方案可行,並且保證每個類別有大量實例,該數據集的類別選擇entry-level,入門級別,即人們普遍使用的類別,dog、chair、person
-
對象部分
預計將包含對象部分類別,比如face、hands、wheels,它們有益於現實應用
-
確定類別
- PASCAL VOC+a subset of the 1200 most frequently used words that denote visually identifiable objects
- 讓4到8歲的小孩說出他們在室內外看到的物體
- 合著者投票5級制投票,考慮是否常用、現實應用價值、與其它類別的差異程度
- 根據投票結果選擇,同時保證每個類別實例數量均勻且充足。為保證向后兼容,VOC的所有類別都被包含了
- 最終得到91個類別
非圖標圖片收集
-
將圖片分為3類
- iconic object images,通過谷歌和必應圖片搜索可以很方便地找到
- iconic scene images
- non-iconic images,目標是主要收集這些圖片
-
收集non-iconic images,兩個策略
-
像VOC一樣,從Flickr中收集,其中的圖片有可以搜索的原數據和關鍵詞
-
成對搜索類別,比如dog + car,搜索結果一般都是non-iconic images,甚至圖片里不只這兩個類別
還有scene/object category pairs
如果找不到足夠的圖片,就單獨搜索類別然后篩選出non-iconic images
-
圖片標注
如何標注收集到的圖片
- 標注pipeline,見Fig3
- 類別標注
- 實例定位
- 實例分割
- 對於眾包任務,標注人員,來自Amazon’s Mechanical Turk (AMT),用戶接口見附錄
- 提高標注質量
- 類別標注和實例定位這兩個階段的標注人員增加到8個
- 增加一個階段驗證實例分割的標注結果
類別標注
-
類別標注做什么
確定圖片里有哪些類別,Fig3(a),大致標出位置
-
類別標注怎么做
-
分級/分步:把91個類別分為11個父類
只需標出圖片里有哪些類別,比如有多個dog,標出一個即可。
- 給定圖像,向標注人員依次顯示每組類別,並要求其指示是否存在該父類的實例。
- 如果某標注人員負責從父類(比如動物)中確定存在實例,則對於存在的每個下屬類別(狗,貓等),工作人員必須將類別的圖標拖到該類別的一個實例上的圖像上。
-
共8個標注人員負責這項工作,如果有任何標注人員指出該類別,則認為該類別存在(提高recall);誤報將在后續階段處理。
-
-
類別標注耗時多久
這個階段耗時20000工時
實例定位
-
實例定位做什么
基於上一步類別標注的結果,標注圖像中對象類別的所有實例,大致位置,如果有多個dog,都要標注出來。Fig3(b)
-
實例定位怎么做
- 標注人員在上一個階段中找到的特定類別的每個實例的頂部放置一個叉號
- 標注人員可以用放大鏡去找到小的實例
- 每個工作人員被要求為每個圖像標記最多10個給定類別的實例。
-
實例定位耗時多久
每個圖像由8名工人標記,總計約10,000個工時
實例分割
-
實例分割做什么
基於上一步實例定位的結果,
-
實例分割怎么做
- 修改了Bell等人開發的用戶接口,
- 如果在圖像中已經對其他實例進行了分割,則將這些分割顯示給工作人員。
- 工作人員還可能指示圖像中沒有給定類別的對象實例(這意味着來自上一階段的假肯定標簽),或者所有對象實例都已被分割。
- 為最小化成本,每個實例僅有一名標注人員分割
- 初步標注出的質量不高,所以訓練標注人員,標注人員和標注結果的質量提高了
- 要求多個工作人員(3至5名)判斷每個標注,並表明其是否與實例完全匹配。質量不高的標注將被丟棄,並將相應的實例添加回未標注的對象池中。
- 一些批准的工人總是生成差勁的標注;從這些工人那里獲得的所有工作都被丟棄
- 如果實例很密集,比如人群、一車香蕉,就會標注為一個“crowds”(出於評估目的,標記為crowds的區域將被忽略,並且不會影響探測器的得分)
-
實例分割耗時多久
- 22 worker hours per 1,000 segmentations.
標注性能分析
- 10個標注人員和7個專家標注對比(其實是合著者)
- Ground Truth根據專家的標注確定,10個標注人員的recall更高,見Fig4(a)
- 測評中recall更關鍵,因為錯誤標注可以在之后去掉
- 大多數標注人員具有很高的precision;這些標注人員通常會完成更多工作,見Fig4(b)
Caption Annotation
- 為每張圖片提供5個說明注釋,這一版本的數據集不久后發布
數據統計
和ImageNet, PASCAL VOC 2012, and SUN進行對比
- 各自特點
- ImageNet:類別多且很多是細粒度的
- SUN:關注場景類型及其中的常見目標
- VOC:主要應用於自然圖片的目標檢測
- COCO:自然圖片中的目標檢測和分割
- 其它內容就是Fig5,以及前面引言INtroduction里對數據集本身的描述
- Fig5
- 每個類別的實例的數量,比較均勻
- 每張圖片里的類別的數量,ImageNet和VOC多數只有1或2個類別,而COCO多數有1-6個類別
- 每張圖片里的實例的數量,SUN最多,ImageNet和VOC多數是1-2個,COCO多數是1-5個
- 類別數量VS實例數量,越靠右上角越復雜
- 實例在圖片中的占比(尺寸維度),幾個數據集差不多,50%以上的目標都不超過圖片尺寸的10%
數據集划分
為更快發行數據集,COCO被分成大致等量的兩部分
- 第一部分,2014公開,82783訓練,40504驗證,40775測試
- 第二部分,2015公開,165,482 train, 81,208 val, and 81,434 test images.
- 訓練和驗證的標注會公開,但測試集的標注不會公開
算法分析
目標框檢測
- 從COCO中選55k張圖片,根據分割標注進行tight-fitting得到矩形框
- 在COCO和VOC上測試數據集
- 測試兩個模型:DPMv5-P和DPMv5-C。P指在PascalVOC2012上訓練的。C指在COCO(5000正樣本,10000負樣本)上訓練的,使用默認設置訓練COCO的模型。
- 兩個模型在兩個數據集上進行測試,在COCO上的性能都比在VOC上的性能低(見Table1),指出COCO包含更多難的圖片。
- 關於訓練集對性能的影響的結論:文中指出在訓練過程中包含困難(非圖標)圖像可能並不總是有幫助,如果該模型不夠豐富,無法捕獲此類外觀可變性,則此類示例可能會充當噪聲並污染學習的模型。
我們的數據集允許探索此類問題。 - 一個結論:根據實驗,模型在MS COCO的總體性能要低得多。這些觀察結果支持兩個假設:1)MS COCO比PASCAL VOC困難得多,並且2)在有更多訓練數據的情況下,在MS COCO上訓練的模型可以更好地推廣到更容易的數據集,例如PASCAL VOC。
基於檢測框生成分割
- 對每個類別,學習其像素級掩碼,方式是將訓練得到的實例(框)對齊,然后平均,見Fig7
通過分割評估檢測
- 現在有分割標注,通過tight-fitting得到矩形框1,以預測(檢測)的分割tight-fitting得到的矩形框2和矩形框1的交並比應大於等於0.5為標准,見Fig8
- 結論
- 即使預測和標簽的真實邊界框重疊得很好,預測的分割也可能無法恢復對象細節,見Fig9左
- Fig9中的結論沒怎么看懂,大概是說即使標注及其矩形框IOU很大,也還是難以預測
- Fig9右,在COCO上測試,正確預測的平均交並比也都不高,基本不超0.5,這一點也不是很懂
討論
又強調了一些東西
- over 70,000 worker hours
- non-iconic images of objects in natural environments and varied viewpoints.
- rich contextual information
未來展望/方向:
- 現在沒有標注stuff,未來可以標注
附錄
- detailed descriptions of the AMT user interfaces
- the full list of OBJECT & SCENE CATEGORIES
作者:@臭咸魚
轉載請注明出處:https://www.cnblogs.com/chouxianyu/
歡迎討論和交流!