圖像分塊分割


圖像分塊分割

SCOPS: Self-Supervised Co-Part Segmentation

論文鏈接:

http://openaccess.thecvf.com/content_CVPR_2019/papers/Hung_SCOPS_Self-Supervised_Co-Part_Segmentation_CVPR_2019_paper.pdf

摘要

分塊提供了對象的良好中間表示,該表示對於攝影機、姿勢和外觀變化而言是穩健的。現有的分塊分割方法大多采用有監督的方法,這些方法依賴於大量的人工標注,不能推廣到不可見的對象類別。本文提出了一種自監督的分塊分割深度學習方法,在這種方法中,本文設計了幾個損失函數來幫助預測幾何集中、對對象變化魯棒且在不同對象實例中語義一致的分塊段。在不同類型的圖像集合上進行的大量實驗表明,與現有的自監督技術相比,本文的方法可以生成符合對象邊界的部分片段,並且跨對象實例的語義更加一致。

1.       Introduction

在這項工作中,本文提出了一個自我監督的深度學習框架來分割分塊。只要給定同一對象類別的圖像集合,本文的模型就可以學習跨不同對象實例語義一致的部分分段。              本文的學習方法是類不可知的,也就是說,可以應用於任何類型的剛性或非剛性對象類別。而且,本文只使用ImageNet預先訓練過的特征(26、39、17)形式的非常弱的監控,這些特征很容易獲得。             

與最近的深度學習技術[42,41,50]相反,本文的網絡以弱或無監督的方式學習地標(關鍵點),本文的網絡預測的部分分割提供了比地標或邊界框更豐富的中間對象表示。為了訓練本文的分割網絡,本文考慮了一個好的部分分割的幾個特性,並將這些先驗知識編碼到損失函數中。             

具體而言,本文考慮了分塊分割的四個理想特征:             

•幾何集中:分塊在幾何上集中,形成連接部件。             

•對變化的魯棒性:由於姿勢變化以及相機和視點變化,分塊段對於對象變形是魯棒的。             

•語義一致性:分塊段應在不同的對象實例之間具有語義一致性,並具有外觀和姿勢變化。             

•對象作為部件的並集:部件出現在對象上(不是背景),部件的並集形成一個對象。             

本文設計了有利於具有上述特性的分塊分割的損失函數,並使用這些損失函數來訓練本文的分塊分割網絡。本文將在第3節詳細討論這些損失函數。             

本文稱本文的分塊分割網絡為“SCOPS”(自監督的共分塊分割)。圖1顯示了示例圖像集合和SCOPS預測的相應部分分段。這些可視化結果表明,盡管對象實例之間存在很大的差異,SCOPS可以估計出跨對象實例語義一致的部分分段。             

與最近的無監督地標檢測方法[42,41,50]相比,本文的方法在處理遮擋的同時對外觀變化相對穩健。此外,本文的方法可以處理圖像中的多個對象實例,這是不可能通過地標估計固定數量的地標。             

與最近的深度特征分解(DFF)相比,本文的方法[10]可以擴展到更大的數據集,可以生成更清晰的部分片段,這些片段遵循對象邊界,並且跨對象實例的語義也更一致。本文通過間接測量未對齊CelebA[29]、AFLW[22]和CUB[44]數據集圖像的地標估計精度,以及PASCAL VOC數據集[11]的前景分割精度,來定量評估本文的部分分割結果。結果表明,SCOPS與最近的技術相比始終表現良好。             

總之,本文提出了一個自監督的深度網絡,它可以預測跨對象實例語義一致的部分分割,同時對對象的姿態和外觀變化、相機變化和遮擋具有相對的魯棒性。

 

 2.       Self-Supervised Co-Part Segmentation

在給定同一目標類別的圖像集合的情況下,本文的目標是學習以單個圖像為輸入輸出部分分割的深層神經網絡。如第1節所述,本文關注分塊分割的重要特征,並設計支持這些特性的損失函數:幾何集中性、對變化的魯棒性、語義一致性和作為分塊聯合的對象。在這里,本文首先描述本文的總體框架,然后描述不同的損失函數,以及它們如何鼓勵上述屬性。在此過程中,本文還評論了本文的損失函數與文獻中現有損失函數的聯系和區別。

由於本文不假設任何地面真值分割注釋的可用性,因此本文將幾個約束作為可微損失函數來描述分塊分割的上述期望特性,例如幾何集中性和語義一致性。分塊分割網絡的總損失函數是不同損失函數的加權和。與一些在測試時間推斷過程中需要多幅圖像的共分割方法[24、32、19、43、33]相反,本文的網絡在測試時間期間僅將一幅圖像作為輸入,從而使本文的訓練模型更好地移植到未看到的測試圖像。

這種損失與最近在無監督地標估計技術中使用的損失密切相關[50,42]。而張等人 [50]近似高斯分布的地標響應圖,本文主要應用濃度損失來懲罰遠離部分中心的部分響應。除了集中損失,[50]和[42]提出了一種分離(多樣性)損失的形式,使不同地標之間的距離最大化。但是,本文不采用這種約束,因為這種約束會導致分離的部分段,中間有背景像素。

本文希望提倡的第二個特性是,分塊分割應該對外觀和姿態變化具有魯棒性。圖3說明了本文如何使用等變約束來鼓勵對變化的健壯性。

盡管等變損失有利於對某些對象變化具有魯棒性的部分分割,但由於圖像之間的外觀和姿勢變化太高,無法通過任何藝術變換進行建模,因此合成生成的變換不足以在不同實例之間產生一致性(參見圖1和4示例)。為了鼓勵不同對象實例之間的語義一致性,本文需要在loss函數中顯式地利用不同的實例。

 

 

 

 

 

 3.       Experiments

在整個實驗中,本文將本文的技術稱為“SCOPS”(自監督共部分分割)。由於SCOPS是自監督的,因此分割不一定對應於人類注釋的對象部分。因此,本文使用兩種不同的代理度量對不同對象類別的SCOPS進行了定量評估,包括CelebA[29]、AFLW[22](人臉)、CUB[44](鳥類)和PASCAL[11](公共對象)數據集。在CelebA、AFLW和CUB數據集上,本文通過選取分塊中心(Eqn)將分塊分割轉換為地標。1) 並根據基礎真理注釋進行評估。在最近的研究[50,42]之后,本文建立了一個線性回歸器,它學習將檢測到的地標映射到地面真值地標,並根據測試數據評估得到的模型。在PASCAL上,本文對部分分割進行聚合,並使用前景分割IOU對其進行評估。

在表1中,本文報告了用眼間距離標准化的平均L2距離的地標回歸誤差。為了與現有的無監督地標發現工作進行比較,本文實現了文獻[50]和[42]中提出的損失函數,包括集中、分離、地標等變和重建。本文用這些約束條件訓練本文的基礎網絡,並將其稱為“ULD”。為了驗證本文的ULD實現,本文在align celebA圖像上對其進行訓練,產生5.42%的地標估計誤差,與[42]中報告的5.83%和[50]中的3.46%相當。

此外,本文在AFLW數據集[22]上訓練SCOPS,該數據集包含4198張人臉圖像(經過過濾)和21個帶注釋的地標。在[50]之后,本文在CelebA和AFLW上對模型進行了預訓練。結果見表2。結果表明,SCOPS在該數據集圖像上的表現也優於ULD和DFF。盡管里程碑預測精度不能直接衡量學習部分的分割質量,但這些結果表明,在具有挑戰性的非對齊設置下,學習部分的分割在語義上是跨實例一致的。

為了驗證不同約束條件的個體貢獻,本文進行了詳細的消融研究,結果見表1(右)。相應的可視化結果如圖5所示。

本文還對CUB-2011數據集[44]中更具挑戰性的鳥類圖像進行了評估,該數據集包含11788幅圖像,包含200種鳥類和15個標志性注釋。數據集具有挑戰性,因為各種鳥類姿勢,例如站立、游泳或飛行,以及不同的相機視角。本文在前三種鳥類類別上訓練K=4的scop,並與ULD和DFF進行比較。本文在圖6中顯示了一些定性結果。在這樣的物體變形水平下,本文發現ULD很難定位有意義的部分。

為了考慮圖像中不同的鳥的大小,本文通過提供的地面真值邊界框的寬度和高度來規范化地標估計誤差。表3顯示了不同技術的定量結果。

由於共分割度量只表示整體目標定位,而不表示分塊分割的一致性,因此該度量只表示分塊分割的質量。本文在圖7中顯示了一些可視化結果,在表4中顯示了定量評估。在IoU方面,無論有沒有CRF后處理,SCOP都比DFF有相當大的優勢[23]。視覺結果表明SCOPS對不同的外觀和姿勢的關節具有很強的魯棒性。

 

 

 

 

 

 

 

 4.    Conclusion

本文提出了SCOPS,一種用於copart分割的自監督技術。給定一個對象類別的圖像集合,SCOPS可以學習在不使用任何基本事實注釋的情況下預測語義一致的部分分割。本文設計了一些約束條件,包括幾何集中、等價性和語義一致性,以訓練深層神經網絡,發現語義一致的部分片段,同時確保良好的幾何配置和跨實例對應。在不同類型的圖像集合上的結果表明SCOPS對不同的對象外觀、相機視點以及姿勢關節具有魯棒性。定性和定量分析結果表明,SCOPS方法優於現有方法。本文希望所提出的方法可以作為學習copart分割的一般框架。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM