全景分割
Panoptic Segmentation
論文鏈接:
摘要
本文提出並研究了一個稱為全景分割(PS)的任務。全景分割結合了語義分割(為每個像素指定一個類標簽)和實例分割(檢測並分割每個對象實例)這兩個典型的不同任務。提出的任務要求生成一個豐富而完整的連貫場景分割,這是邁向現實世界視覺系統的重要一步。雖然計算機視覺的早期工作解決了相關的圖像/場景解析任務,但這些任務目前並不流行,可能是由於缺乏適當的度量或相關的識別挑戰。為了解決這個問題,本文提出了一種新的全景質量(PQ)度量,它以可解釋和統一的方式捕獲所有類(東西和事物)的性能。使用所提出的度量,本文在三個現有數據集上對PS的人和機器性能進行了嚴格的研究,揭示了關於該任務的有趣見解。本文的工作目標是在一個更統一的圖像分割的觀點中恢復專業社區的興趣。
1. Introduction
在本文的工作中,本文的目標是恢復這一方向。本文提出的任務是:
(1) 包含材料和材料類,
(2) 使用簡單但通用的輸出格式,並且
(3) 引入統一的評估指標。
為了清楚地消除與先前工作的歧義,本文將得到的任務稱為全景分割(PS)。“全景”的定義是“包括在一個視圖中可見的所有內容”,在本文的上下文中,全景指的是一個統一的全局分割視圖。
本文采用的全景圖分割的任務格式很簡單:圖像中的每個像素都必須分配一個語義標簽和一個實例id,標簽和id相同的像素屬於同一個對象,而對於素材標簽,實例id被忽略。請參見圖1d中的可視化。這種格式以前已經被采用,特別是那些產生非重疊實例分段的方法[18,28,2]。本文采用它來完成本文的共同任務,包括一些相關素材。全景分割的一個基本方面是用於評估的任務度量。雖然許多現有的度量標准對於語義或實例分割都很流行,但這些度量標准分別最適合於內容或事物,但不能同時適用於兩者。本文認為,不相交度量的使用是社區通常孤立地研究素材內容分割的主要原因之一。
為了解決這個問題,本文在第4節中引入了全景質量(PQ)指標。PQ是一種簡單而信息豐富的方法,最重要的是它可以以統一的方式測量事物和事物的性能。本文希望,擬議的聯合指標將有助於更廣泛地通過聯合任務。全景分割任務包括語義和實例分割,但引入了新的算法挑戰。與語義分割不同,它需要區分單個對象實例;這對完全卷積網絡提出了挑戰。與實例分割不同,對象段必須是不重疊的;這對獨立操作每個對象的基於區域的方法提出了挑戰。產生連貫的圖像分割來解決東西之間的不一致是邁向現實世界的重要一步。
由於PS算法的地面真值和算法格式必須具有相同的形式,因此本文可以對全景分割中的人類一致性進行詳細的研究。這使本文能夠更詳細地理解PQ度量,包括識別與分割、事物與性能的詳細分類。此外,測量人的PQ有助於本文理解機器的性能。這一點很重要,因為這將使本文能夠監控PS的各種數據集上的性能飽和。最后,本文對機器性能進行了初步研究
為了做到這一點,本文定義了一個簡單且可能是次優的啟發式方法,通過一系列的后處理步驟將兩個獨立的語義和實例分割系統的輸出合並起來(本質上是一種復雜的非最大抑制形式)。本文的啟發式方法為PS建立了一個基線,並讓本文深入了解它提出的主要算法挑戰。本文在三個流行的分割數據集上研究了人和機器的性能,這些數據集都有東西注釋。這包括城市景觀[6]、ADE20k[55]和地圖遠景[35]數據集。對於這些數據集,本文直接從挑戰組織者那里獲得了最新方法的結果。
在未來,本文將把本文的分析擴展到COCO[25]上,在COCO[25]上對內容進行注釋[4]。這些數據集上的本文的結果形成了一個堅實的基礎研究人類和機器性能的全景分割。COCO[25]和Mapillary Vistas[35]在ECCV2018的識別挑戰中都將全景分割任務作為其中一個軌跡。本文希望,在這些流行的識別數據集上,將PS與實例和語義分割軌跡一起使用,將有助於更廣泛地采用規范的合作任務。
2. Panoptic Segmentation Format
Task format.
Stuff and thing labels.
Relationship to semantic segmentation.
Relationship to instance segmentation.
Confidence scores.
3. Panoptic Segmentation Metric
在這一節中,本文介紹了一種新的全景分割度量。本文首先注意到,現有的度量標准是專門用於語義或實例分段的,不能用於評估同時涉及stuff和thing類的聯合任務。先前關於聯合分割的工作通過使用獨立的度量標准(例如[51,41,42,40])來評估材料和事物的性能,從而避開了這個問題。
然而,這給算法開發帶來了挑戰,使得比較更加困難,並且阻礙了通信。本文希望引入一個統一的東西和事物度量將鼓勵對統一任務的研究。在進一步討論細節之前,本文首先確定以下適合PS度量的設計:完整性。度量標准應該以統一的方式處理類和類,捕獲任務的所有方面。可解釋性。本文尋求一個具有明確含義的指標,以促進溝通和理解。
簡單。
此外,該指標應易於定義和實施。這提高了透明度,便於重新實施。與此相關的是,該指標應能有效計算,以實現快速評估。在這些原理的指導下,本文提出了一種新的全景質量(PQ)度量方法。PQ測量與地面真實度相關的預定全景分割的質量。 它包括兩個步驟:(1)分段匹配和(2)給定匹配的pq計算。本文描述下一步的每個步驟,然后返回到與現有度量的比較。
4. Panoptic Segmentation Datasets
Cityscapes
ADE20k
Mapillary Vistas
5. Human Consistency Study
全景分割的一個優點是它能夠測量人類符號的一致性。除了這本身作為一個有趣的目的外,人類一致性研究允許本文詳細了解任務,包括本文提出的度量標准的細節以及人類一致性在各個軸上的分解。這使本文能夠洞察任務帶來的內在挑戰,而不會因算法選擇而影響本文的分析。此外,人類研究有助於地面機器性能(在第7節中討論),並允許本文校准對任務的理解。
Humanan notations.
Human consistency.
Stuff vs. things.
Small vs. large objects.
IoU threshold.
6. Machine Performance Baselines
本文現在提出一個簡單的機器基線進行全景分割。本文對三個問題感興趣:(1)高性能實例和語義分割系統的啟發式組合是如何實現全局分割的?(2) PQ與AP和IoU等現有指標相比如何?(3) 機器的結果和本文之前展示的人類結果相比如何?
Algorithms and data.
Instance segmentation.
Panoptic segmentation.
Human vs. machine panoptic segmentation.
7. Future of Panoptic Segmentation
本文的目標是通過邀請專業社團探索新的全景分割任務來推動研究的創新方向。本文認為,擬議的任務可以帶來預期和意外的創新。最后,本文討論了其中一些可能性和本文未來的計划。由於算法簡單,本文提出的PS算法是基於最優實例輸出和語義分割系統的啟發式組合。這種方法是基本的第一步,但本文希望引入更多有趣的算法。具體來說,本文希望看到PS至少在兩個領域推動創新:
(1)深度集成的端到端模型,同時解決了PS的雙重特性和事物特性。許多實例分割方法包括[28,2,3,18]被設計成產生非重疊的實例預測,並且可以作為這種系統的基礎。
(2) 由於一個PS不能有重疊的片段,一些更高層次的“推理”形式可能是有益的,例如,基於擴展可學習的NMS[7,16]到PS。本文希望全景分割任務將激勵這些領域的研究,導致令人興奮的視覺新突破。最后,本文注意到COCO[25]和Mapillary Vistas[35]都將全景分割任務作為一個挑戰軌跡,並且提議的任務已經開始在專業社團中獲得吸引力(例如[23、48、49、27、22、21、17])。