全景分割:CVPR2019論文解析


全景分割:CVPR2019論文解析

Panoptic Segmentation

 

 論文鏈接:

http://openaccess.thecvf.com/content_CVPR_2019/papers/Kirillov_Panoptic_Segmentation_CVPR_2019_paper.pdf

For results: https://arxiv.org/abs/1801.00868.

摘要

本文提出並研究了一個稱為全景分割(PS)的任務。全景分割是典型的語義分割(為每個像素指定一個類標簽)和實例分割(檢測並分割每個對象實例)的不同任務。提出的任務要求生成一個豐富而完整的連貫場景分割,這是邁向現實世界視覺系統的重要一步。雖然計算機視覺的早期工作解決了相關的圖像/場景解析任務,但這些任務目前並不流行,可能是由於缺乏適當的度量或相關的識別挑戰。為了解決這個問題,本文提出了一種新的全景質量(PQ)度量,它以可解釋和統一的方式捕獲所有類(東西和事物)的性能。使用所提出的度量,本文在三個現有數據集上對PS的人和機器性能進行了嚴格的研究,揭示了關於該任務的有趣見解。本文工作的目的是在一個更為統一的圖像分割視角下重新喚起社區的興趣。

1.       Introduction

研究材料通常被定義為一個稱為語義分割的任務,見圖1b。由於材料是無定形和不可數的,這個任務被定義為簡單地為圖像中的每個像素分配一個類標簽(注意,語義分割將材料類視為材料)。相比之下,研究對象通常被描述為對象檢測或實例分割任務,目標是檢測每個對象,並分別用邊界框或分割掩碼對其進行描繪,見圖1c。雖然看似相關,但數據集、細節,而這兩種視覺識別任務的度量標准差別很大。

最后,本文對PS的機器性能進行了初步研究。為此,本文定義了一個簡單且可能是次優的啟發式算法,通過一系列后處理步驟(本質上是一種復雜的非最大抑制形式)將語義和實例分割的兩個獨立系統的輸出結合起來。             

本文的啟發式方法為PS建立了一個基線,並讓本文深入了解它提出的主要算法挑戰。本文在三個流行的分割數據集上研究了人和機器的性能,這些數據集都有東西注釋。這包括城市景觀[6]、ADE20k[54]和地圖遠景[35]數據集。對於這些數據集,本文直接從挑戰組織者那里獲得了最新方法的結果。             

在未來,本文將把本文的分析擴展到COCO[25]上,在COCO[25]上對內容進行注釋[4]。這些數據集上的本文的結果形成了一個堅實的基礎研究人類和機器性能的全景分割。COCO[25]和Mapillary Vistas[35]都將全景分割任務作為其在ECCV2018識別挑戰中的一個軌跡。本文希望,在這些流行的識別數據集上,將PS與實例和語義分割軌跡一起使用,將有助於更廣泛地采用擬議的聯合任務。

 

 2.       Related Work

在本文的工作中,本文的目標是恢復這一大方向,但與以前的工作相比,本文把重點放在任務本身。具體而言,如前所述,請注意:             

1) 同時處理材料和材料類,             

2) 使用簡單的格式,並且             

3) 為事物和事物引入統一的度量。以前關於聯合分割的工作使用不同的格式和不相交的度量來評估東西。生成非重疊實例分段的方法[18、3、28、2]使用與PS相同的格式,但這些方法通常只處理對象類。本文希望通過處理內容和事情,使用簡單的格式,引入統一的度量標准,鼓勵更廣泛地采用聯合任務

3.       Panoptic Segmentation Format

任務格式             

全景分割的格式很容易定義。給定由L:={0,…,L−1}編碼的一組預先確定的L語義類,該任務需要一個全景分割算法將圖像的每個像素i映射到一對(li,zi)∈L×N,其中li表示像素i的語義類,zi表示其實例id。將同一類的zi的像素分組成不同的段。基本真理注釋的編碼是相同的。模棱兩可或類外像素可以指定一個特殊的空標簽;即,並非所有像素都必須具有語義標簽。東西標簽。語義標簽集由子集LSt和LTh組成,使得L=LSt∪LTh和LSt∩LTh=`。這些子集分別對應於stuff和thing標簽。當一個像素被li∈LSt標記時,其對應的實例id zi是不相關的。也就是說,對於stuff類,所有像素都屬於同一個實例(例如,同一天空)。否則,具有相同(li,zi)賦值的所有像素,其中li∈LTh屬於同一實例(例如,同一輛車),反之,屬於單個實例的所有像素必須具有相同(li,zi)。與以前的數據集一樣,選擇哪些類是stuff vs.things是留給數據集創建者的設計選擇。             

與語義切分的關系

PS任務格式是語義分割格式的嚴格推廣。實際上,這兩個任務都要求為圖像中的每個像素分配一個語義標簽。如果基本事實沒有指定實例,或者所有類都是東西,那么任務格式是相同的(盡管任務度量不同)。此外,包含事物類(可能每個圖像有多個實例)可以區分任務。與實例分段的關系。實例分割任務需要一種方法來分割圖像中的每個對象實例。然而,它允許重疊的片段,而全景分割任務只允許為每個像素分配一個語義標簽和一個實例id。因此,對於PS,通過構造不可能有重疊。在下一節中,本文將展示這種差異在績效評估中的重要作用。             

置信度得分             

與語義分割類似,但與實例分割不同,本文不需要與PS的每個分割相關聯的置信度分數。這使得全景任務相對於人和機器是對稱的:兩者都必須生成相同類型的圖像注釋。這也使得評估PS的人類一致性變得簡單。這與實例分割不同,實例分割不容易接受這樣的研究,因為人類注釋者不提供明確的可信度分數(盡管可以測量單個精度/召回點)。本文注意到,置信度得分給下游系統提供了更多的信息,這可能是有用的,因此,在某些設置中使用PS算法生成置信度得分仍然是可取的。

4.       Panoptic Segmentation Metric

在這一節中,本文介紹了一種新的全景分割度量。本文首先注意到,現有的度量標准是專門用於語義或實例分段的,不能用於評估同時涉及stuff和thing類的聯合任務。以前關於聯合分割的工作通過使用獨立的度量標准(例如[50,41,42,40])來評估材料和事物的性能,從而避開了這個問題。然而,這給算法開發帶來了挑戰,使得比較更加困難,並且阻礙了通信。             

本文希望引入一個統一的東西和事物度量將鼓勵對統一任務的研究。在進一步討論細節之前,本文首先確定以下適用於PS的度量的設計:             

完整性             

度量標准應該以統一的方式處理類和類,捕獲任務的所有方面。可解釋性。本文尋求一個具有明確含義的指標,以促進溝通和理解。             

簡單              

此外,該指標應易於定義和實施。這提高了透明度,便於重新實施。與此相關的是,該指標應能有效計算,以實現快速評估。在這些原理的指導下,本文提出了一種新的全景質量(PQ)度量方法。             

PQ測量與地面真實度相關的預測全景分割的質量。它包括兩個步驟:             

1) 段匹配和             

2) 給定匹配的PQ計算。本文描述下一步的每個步驟,然后返回到與現有度量的比較。

 

 4.1. Segment Matching

本文指定,只有當預測段和地面真值段在並集上的交集(IoU)嚴格大於0.5時,預測段和地面真值段才能匹配。這一要求,加上全景分割的不重疊特性,給出了一個獨特的匹配:每個地面真值段最多只能有一個預測段匹配。             

定理1. 給定圖像的預測和地面真值全景分割,每個地面真值段最多可以有一個對應的預測段,IoU嚴格大於0.5,反之亦然。

 

 匹配的要求必須具有大於0.5的IoU,這反過來產生唯一的匹配定理,實現了本文所期望的兩個特性。首先,它是簡單和有效的,因為通信是唯一和瑣碎的獲得。其次,它是可解釋且易於理解的(並且不需要像這些類型的度量通常的情況那樣解決復雜的匹配問題[13,49])。注意,由於唯一性屬性,對於IoU>0.5,任何合理的匹配策略(包括貪婪和最優)都將產生相同的匹配。對於較小的IoU,需要其他匹配技術;然而,在實驗中,本文將表明,由於IoU≤0.5的匹配在實踐中是罕見的,因此不需要較低的閾值。

4.2. PQ Computation

本文獨立計算每一個班級的PQ,並對班級進行平均。這使得PQ對類不平衡不敏感。對於每個類,唯一匹配將預測的和基本的真值段分成三組:真陽性(TP)、假陽性(FP)和假陰性(FN),分別表示匹配的片段對、不匹配的預測片段和不匹配的地面真值片段。              一個例子如圖2所示。             

本文對PQ的定義達到了本文的目的。它使用一個簡單且可解釋的公式以統一的方式度量所有類的性能。最后,本文討論如何處理空白區域和實例組[25]。             

無效標簽             

有兩個來源的虛空標簽在地面真相:(a)類外像素和(b)模糊或未知像素。由於本文常常無法區分這兩種情況,因此本文不評估對空像素的預測。具體來說:(1)在匹配過程中,預測段中標記為地面真值中的虛空的所有像素都從預測中移除,並且不影響IoU計算;(2)匹配后,包含超過匹配閾值的部分空像素的不匹配預測段將被移除,並且不算作誤報。最后,輸出也可能包含空像素;這些不會影響計算。             

組標簽             

一個常見的注釋實踐[6,25]是使用一個組標簽,而不是同一語義類的相鄰實例的實例ID,如果每個實例的准確描述是困難的。             

對於計算PQ:             

1) 在匹配過程中,不使用組區域,並且             

2) 匹配后,將移除包含超過匹配閾值的來自同一類的一組像素的一小部分的未匹配預測段,並且不計為誤報。

4.3. Comparison to Existing Metrics

本文通過比較PQ和現有的語義和實例分割度量得出結論。             

語義分割度量             

語義分割的常用度量包括像素精度、平均精度和IoU[30]。這些度量僅基於像素輸出/標簽計算,完全忽略對象級標簽。例如,IoU是正確預測的像素與每個類的預測或地面真值中的像素總數之間的比率。由於這些度量忽略了實例標簽,因此它們不太適合評估對象類。最后,請注意,用於語義分割的IoU與本文的分割質量(SQ)是不同的,SQ是根據匹配段上的平均IoU來計算的。             

實例分段度量             

例如,分割的標准度量是平均精度(AP)[25,13]。AP要求每個對象段都有一個置信分數來估計精度/召回曲線。請注意,對於對象檢測來說,置信度分數是很自然的,但它們不用於語義分割。因此,AP不能用於測量語義切分的輸出,或者類似於PS的輸出(另請參見第3節中關於confidences的討論)。             

全景質量             

PQ以統一的方式對待所有的類(東西)。本文注意到,雖然將PQ分解為SQ和RQ有助於解釋結果,但PQ並不是語義和實例分割度量的組合。相反,SQ和RQ是針對每一類(材料和事物)計算的,並分別測量分割和識別質量。因此,所有課程的大學評估。本文在第7節中對PQ進行了嚴格的實驗評估,包括分別在語義和實例分割方面與IoU和AP進行比較,從而支持這一說法。

5.       Panoptic Segmentation Datasets

據本文所知,只有三個公共數據集同時具有密集的語義和實例分段注釋:Cityscapes[6]、ADE20k[54]和Mapillary Vistas[35]。本文使用這三個數據集進行全景分割。此外,在未來,本文將把本文的分析擴展到COCO[25],在COCO[25]上,最近對其進行了注釋[4]。城市景觀[6]有5000張城市環境中以自我為中心的駕駛場景圖像(2975輛火車、500輛val和1525次測試)。它有19個類的密集像素注釋(97%的覆蓋率),其中8個類具有實例級分段。

ADE20k[54]有超過25k個圖像(20k列,2k val,3k測試),這些圖像使用開放字典標簽集進行密集注釋。在2017年的PlacesChallenge2中,選擇了覆蓋89%像素的100個thing和50個stuff類。本文在學習中使用這種封閉的詞匯。             

Mapillary Vistas[35]有25k幅街景圖像(18k列車,2k val,5k測試),分辨率范圍很廣。數據集的“研究版”有密集的注釋(98%的像素覆蓋率),包含28個內容和37個內容類。

6.       Human Consistency Study

全景分割的一個優點是它能夠測量人類注釋的一致性。除了這本身作為一個有趣的目的外,人類一致性研究允許本文詳細了解任務,包括本文提出的度量標准的細節以及人類一致性在各個軸上的分解。             

這使本文能夠洞察任務帶來的內在挑戰,而不會因算法選擇而影響本文的分析。此外,人類研究有助於地面機器性能(在第7節中討論),並允許本文校准對任務的理解。              人類注釋             

為了能夠進行人類一致性分析,數據集創建者慷慨地為本文提供了30幅用於城市景觀的雙注釋圖像、64幅用於ADE20k的雙注釋圖像和46幅用於遠景的雙注釋圖像。對於城市景觀和遠景,圖像由不同的注釋者獨立注釋。ADE20k由一位訓練有素的注釋員注釋,他用6個月的時間間隔標記同一組圖像。             

為了測量人類注釋者的全景質量(PQ),本文將每個圖像的一個注釋視為地面真實,另一個作為預測。請注意,PQ是對稱的w.r.t.地面真相和預測,因此秩序是不重要的。              人的一致性             

首先,表1顯示了每個數據集上的人類一致性,同時將PQ分解為分割質量(SQ)和識別質量(RQ)。正如所料,人類在這項任務上並不完美,這與文獻[6,54,35]對注釋質量的研究是一致的。             

人類分割和分類錯誤的可視化分別如圖3和圖4所示。本文注意到,表1在每個數據集上建立了注釋器一致性的度量,而不是人類一致性的上限。本文進一步強調,數據集之間的數字不具有可比性,不應用於評估數據集質量。類的數量、注釋像素的百分比和場景的復雜度在不同的數據集中有所不同,每一個數據集都會對注釋難度產生重大影響。              東西vs.東西             

PS要求對內容和內容進行細分。在表1中,本文還顯示了PQSt和PQTh,這兩個PQ分別是在stuff類和thing類上的平均值。對於城市景觀和2萬人的東西和事物的一致性是接近的,在遠景上差距是有點大。總的來說,這意味着事物和事物有相似的困難,盡管事物類有點難。本文參考本文的arXiv版本以進一步分析度量。             

小物體與大物體             

為了分析PQ如何隨對象大小而變化,本文將數據集划分為小(S)、中(M)和大(L)對象,分別考慮每個數據集中最小25%、中間50%和最大25%的對象。在表2中,本文看到對於大型對象,所有數據集的人的一致性都非常好。對於小物體來說,RQ下降非常明顯,這意味着人類注釋者通常很難找到小物體。但是,如果發現一個小物體,它就被分割得比較好。

 

 7.       Machine Performance Baselines

本文現在提出一個簡單的機器基線進行全景分割。             

本文有三個問題感興趣:             

1) 高性能實例和語義分割系統的啟發式組合對全景分割有何作用?             

2) PQ與AP和IoU等現有指標相比如何?             

3) 機器的結果和本文之前展示的人類結果相比如何?             

算法和數據

本文希望根據現有的成熟方法來理解全景分割。因此,本文創建了一個基本的PS系統,將合理的啟發式(稍后介紹)應用於現有的top-instance和語義分割系統的輸出。本文得到了三個數據集的算法輸出。對於城市景觀,本文使用當前領先算法生成的val集輸出(PSPNet[53]和Mask R-CNN[14]分別用於語義和實例分割)。             

對於ADE20k,本文收到了2017 Places Challenge測試圖像1k子集上語義[12,11]和實例[31,10]分割軌跡的獲勝者的輸出。用於LSUN'17的遠景分割挑戰賽,主辦方為本文提供了1k測試圖片和獲獎作品的實例和語義分割軌跡結果[29,52]。利用這些數據,本文首先分別對實例和語義分割任務進行PQ分析,然后對完整的全景分割任務進行檢驗。請注意,本文的“基線”非常強大,更簡單的基線可能更適合在PS論文中進行公平比較。             

實例分割             

實例分割算法產生重疊段。為了測量PQ,本文必須首先解決這些重疊。為此,本文開發了一個簡單的非最大抑制(NMS)類過程。本文首先根據預測片段的置信度得分對其進行排序,並刪除得分較低的實例。然后,本文迭代排序的實例,從最有說服力的實例開始。對於每一個例子,本文首先移除已經分配給前一個片段的像素,然后,如果片段的一個足夠部分仍然存在,本文接受不重疊部分,否則本文丟棄整個片段。所有的閾值都是通過網格搜索來優化PQ。城市景觀和ADE20k的結果如表3所示(由於只有一個條目進入2017年的實例挑戰,因此遠景被省略)。             

最重要的是,AP和PQ密切跟蹤,本文預計探測器AP的改進也將改善其PQ。語義分割              通過設計,語義分割沒有重疊的部分,因此本文可以直接計算PQ。              

在表4中,本文將此任務的標准度量mean IoU與PQ進行了比較。對於城市景觀,方法之間的PQ差距對應於IoU差距。對於ADE20k來說,差距要大得多。這是因為IoU計算正確的預測像素,而PQ則在實例級別運行。詳見表4標題。             

全景分割             

為了產生PS的算法輸出,本文從前面描述的NMS類過程中的非重疊實例段開始。然后,本文將這些片段與語義分割結果結合起來,解決事物類和材料類之間的任何重疊,而不是事物類(即,為帶有事物和材料標簽的像素分配了事物標簽及其實例id)。這種啟發式方法是不完美的,但作為一個基線是足夠的。             

5將根據綜合(“全景”)結果計算的PQSt和PQTh與通過上述單獨預測獲得的性能進行了比較。對於這些結果,本文將來自每個競爭對手的獲勝條目用於實例和語義任務。由於重疊是有利於解決的事情,PQTh是恆定的,而PQSt是略低的全景預測。全景輸出的可視化如圖5所示。人與機器全景分割。為了比較人類和機器的PQ,本文使用上面描述的機器全景預測。             

對於人工結果,本文使用第6節中描述的雙注釋圖像,並使用引導程序獲取置信區間,因為這些圖像集很小。這些比較是不完美的,因為它們使用不同的測試圖像,並且在不同的類上取平均值(省略了在雙注釋測試集中沒有匹配的一些類),但是它們仍然可以提供一些有用的信號。本文在表6中給出了比較結果。對於SQ來說,機器只會稍微跟蹤人類。             

另一方面,機器RQ明顯低於人類RQ,尤其是在ADE20k和遠景上。這意味着識別,即分類,是當前方法的主要挑戰。總的來說,人與機器的性能之間存在着巨大的差距。本文希望這一差距將啟發未來對所提出的全景分割任務的研究。

 

 

 

  

 

 8.       Future of Panoptic Segmentation

本文的目標是通過邀請社區探索新的全景分割任務,推動研究朝着新的方向發展。本文認為,擬議的任務可以帶來預期和意外的創新。最后,本文討論了其中一些可能性和本文未來的計划。由於算法簡單,本文提出的PS算法是基於最優實例輸出和語義分割系統的啟發式組合。這種方法是基本的第一步,但本文希望引入更多有趣的算法。              具體而言,本文希望PS至少在兩個領域推動創新:             

1)深度集成的端到端模型同時解決了PS.的雙重性質和事物本質,許多實例分割方法包括(28, 2, 3,18)被設計成產生非重疊的實例預測,並且可以作為這種系統的基礎。             

2) 由於一個PS不能有重疊的片段,一些更高層次的“推理”形式可能是有益的,例如,基於擴展可學習的NMS[7,16]到PS。本文希望全景分割任務將激勵這些領域的研究,導致令人興奮的視覺新突破。

 

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM