
計算機視覺研究院專欄
作者:Edison_G
給一個包含了未知種類多個實體的沒訓練過的新樣本(the query image),如何檢測以及分割所有這些實例???
長按掃描二維碼關注我們
一、分割回顧
實例分割(Instance Segmentation)
實例分割(Instance Segmentation)是視覺經典四個任務中相對最難的一個,它既具備語義分割(Semantic Segmentation)的特點,需要做到像素層面上的分類,也具備目標檢測(Object Detection)的一部分特點,即需要定位出不同實例,即使它們是同一種類。因此,實例分割的研究長期以來都有着兩條線,分別是自下而上的基於語義分割的方法和自上而下的基於檢測的方法,這兩種方法都屬於兩階段的方法,下面將分別簡單介紹。
以下摘自於:CSDN- 三十八元
兩階段實例分割 自上而下(Top-Down)自上而下的實例分割方法的思路是:首先通過目標檢測的方法找出實例所在的區域(bounding box),再在檢測框內進行語義分割,每個分割結果都作為一個不同的實例輸出。





(1)Backbone:Resnet 101+FPN,與RetinaNet相同;(2)Protonet:接在FPN輸出的后面,是一個FCN網絡,預測得到針對原圖的原型mask(3)Prediction Head:相比RetinaNet的Head,多了一個Mask Cofficient分支,預測Mask系數,因此輸出是4*c+k。


二、One shot實例分割
論文地址:https://arxiv.org/pdf/1811.11507.pdf
動機
該文聚焦在一個前沿的問題:給一個包含了未知種類多個實體的沒訓練過的新樣本(the query image),如何檢測以及分割所有這些實例。這個問題和現實應用密切相關,因為檢測/分割的落地場景中不可能有類似MS-COCO或者OpenImages之類數據集包含了非常多的實例,現實任務中的實例是窮舉不完的,如何從有限種類和數量的樣本中學習到一些知識並推演到新的種類中是很具有挑戰和實際意義的。該問題的研究大多還是停留在分類任務上,檢測和分割少。
主要亮點:
1.提出siamese Mask R-CNN框架,能夠僅給一個樣本,就能夠較好的檢測&分割新的該樣本同類實例;
2.構建了一個新的評測標准在MS-COCO。
Different from MRCNN:
正如名字一樣,主體框架就是由SiameseNetwork + Mask R-CNN。改進前后的框架比對如下圖。
主要的4處不同已經用紅色標識,即R、Siamese、Matching、L1。R代表了輸入不僅有Query Image還有Reference Image;SiameseNetwork則對兩者分別進行encode;Matching是將編碼后的2個feature vector進行逐一的匹配;L1則是算diff的手段。具體的匹配流程如下圖。
該框架的結果如下:
三、Zero shot實例分割
研究者提出了一個新的任務稱之為零樣本實例分割(Zero-Shot Instance Segmentation)——ZSI。ZSI的任務要求在訓練過程中,只用已經見過並有標注的數據進行訓練,但在測試和推理時能夠同時分割出見過和沒見過的物體實例。
首先用數學語言對該任務進行描述,然后提出了一個方法來解決ZSI的問題。新方法包括零樣本檢測器(Zero-shot Detector)、Semantic Mask Head、Backgro Aware RPN和Synchronized Background Strategy。實驗結果表明,提出的方法不僅在ZSI的任務上效果不錯,在零樣本檢測任務上也取得了比之前已有研究更好的表現。
亮點:(部分采用:https://www.jiqizhixin.com/articles/2021-03-17)
1:針對零樣本實例分割任務,提出應對的算法,該算法是基於Backgro Aware的檢測-分割框架;
2:定義了零樣本分割(ZSI)自己獨特的測試基准;
3:測試結果表明在ZSD任務上超越了已有的方法,且在ZSI任務上的結果很有競爭力。
整個零樣本實例分割的框架如下圖所示。對於一張輸入圖像來講,首先要使用骨干網絡(backbone),BA-RPN和ROI Align來提取視覺特征和背景的詞向量,然后經過Sync-bg模塊后分別送入零樣本檢測器和語義分割頭,從而得到實例分割的結果。
零樣本檢測器的設計細節如下圖所示,采用了編碼-解碼結構,在測試/推理時只是用解碼器的Te。
語義分割頭的結構如下圖4所示,它是一個encoder-decoder的架構,在訓練階段,使用encoder來把圖像的特征編碼到語義-文字特征向量。然后使用decoder把上面構建的語義-文字特征向量去重建圖像的任務:檢測,分割等。
實驗:

