論文閱讀《Semantic Instance Segmentation with a Discriminative Loss Function》


論文閱讀筆記《Semantic Instance Segmentation with a Discriminative Loss Function》

1、Introduction

本文最重要的是提出一個判別損失函數,其鼓勵網絡將每個像素映射到特征空間中的點,使得屬於同一實例的像素靠近在一起,而不同的實例以大幅度分離(文章中多次強調)。利用現有的網絡並結合判別損失函數實現語義實例分割是和其他模型(依賴於object proposasl和RNN機制)最大的不同。

2、Related work

i) Proposal based:此類實例分割方法主要采用object proposal和classification兩個stage,但是不能很好的處理遮擋(occlusions)的問題,而本文提出的模型全面地分析圖像,可以很好地解決。

ii) Recurrent methods:使用LSTM類似的網絡可以end-to-end地進行實例分割,並且損失函數需要使用匈牙利算法(Hungarian algorithm)來匹配候選檢測和groundtruth,兩大弊端,LSTM網絡復雜,損失函數復雜。

iii) Clustering:基於聚類,訓練網絡以預測每個像素朝向其實例中心的方向,后處理使用模板匹配和proposal fusion的方法來從representation中提取每個實例。訓練子網絡來得到物體實例的數目。

iv) Other:結合語義分割模型和edge maps來提取實例(有點類似於Unet用於醫學的細胞分割)。弊端是不能處理好存在遮擋的問題。

v) Loss function:從triplet loss獲得啟發,不同於優化圖像之間的距離,本文在像素層面考慮,優化圖像中每個像素之間的距離。

triplet loss :主要用來用於訓練差異性較小的樣本。比如選擇一張圖片作為anchor,Positive是跟anchor同一個人的,Negative是跟anchor不一樣的人的,那我們希望通過學習使得anchor與positive的距離近一些,與negative的距離遠一些。)

3、Method

i) Discriminative loss function
pixel embedding:用來聚類,簡單理解是為了:相同(label)實例的嵌入應該靠近一起;而不同(label)實例應該遠離。

loss定義了pull和push在類內(intra-cluster)和類間(inter-cluster)的實例,類內中loss定義為variance loss,類間loss定義為distance loss,另外定義了一個regularization loss。

總的loss為:α = β = 1 and γ = 0.001。具體loss請看原文。

ii) Post-processing
因此,我們可以對任何嵌入進行閾值選擇,以選擇屬於同一群集的所有嵌入。 推理過程是選擇一個未標記的像素,圍繞其嵌入的閾值來查找屬於同一實例的所有像素,並為它們分配所有相同的標簽。

然后選擇另一個還不屬於某個實例的像素並重復,直到所有像素都被標記為止

4、Experiments

 論文實驗結果:

論文數據實驗結果:(圖像大小是512*512)

 

 論文鏈接:https://arxiv.org/abs/1708.02551

github鏈接:https://github.com/Wizaron/instance-segmentation-pytorch


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM