論文閱讀|PointRend: Image Segmentation as Rendering


標題:PointRend: Image Segmentation as Rendering

鏈接:http://arxiv.org/abs/1912.08193

概要

論文要解決的是圖像分割質量問題,往往圖像分割在物體邊界處的分割質量很差,不能細致的分割出每個細節。因此作者提出了針對目標輪廓進行細化預測的一個模型:PointRend,其思想是以迭代的方式細化從目標輪廓區域選擇的點的分割預測,從而提升目標輪廓分割質量。提出的模型適用於實例分割和語義分割,能預測清晰的目標輪廓,同時也提升了相應的分割精度。如下圖,每一步對平滑區域進行雙線性上采樣,對那些有可能是物體邊界的少量點進行高分辨率預測。

1577001623604

作者認為圖像或者特征這種規則的像素網格在進行預測時,不可避免的在平滑區域過采樣,在物體輪廓欠采樣。個人理解是將預測的低分辨率特征上采樣到原始尺寸時,平滑區域像素較多而輪廓邊緣的像素較少,所以造成在平滑區域得到很好的預測,而在目標輪廓的預測卻很不精細。

方法

PointRend模塊包含3個部分:(1)點選擇策略(預測和訓練時的策略不同),對少量選擇的點預測其在高分辨率圖中的類別;(2)對選擇的每個點的特征表示。(3)point head。根據每個點的特征表示預測類別標簽

1577003174935

首先是每個點的特征表示。將兩種不同的特征(細粒度特征和粗預測特征)拼接作為每個點的特征表示。個人理解這些點是從粗預測中選擇得到,然后映射到細粒度特征圖中,如上圖。細粒度特征圖是原圖尺寸,對每一個映射的點采用雙線性插值得到對應點的細粒度特征,提取出的是多通道單個點的特征,細粒度特征具有物體的細節信息。粗預測特征對於實例分割來說是從RoI特征經過預測得到的K類別Mask中進行插值提取。粗預測特征提供更多的上下文信息,同時表達語義類別。最后拼接作為每個點的最終特征表示。

然后是Point Head。給定每個點的特征表示,采用MLP進行分割預測,預測點的類別標簽。

最后看選擇策略。如下圖所示,預測階段每一次迭代選擇N個最不確定的點(比如置信度接近0.5的點)計算特征表示,然后預測標簽。

1577024851400

訓練階段的策略與預測階段不同,如下圖所示。有三個原則:(1)生成更多的點:以均勻分布取kN個點(k>1)。(2)關注於那些不確定的粗預測點,通過對kN個點進行插值並計算了一個針對特定任務的不確定性估計,然后選擇最不確定的\(\beta\)N個點(3)剩下的\(1-\beta\)個點從均勻分布中選取。這種策略更偏重於那些不確定的區域,也就是物體輪廓。

1577026737002

實例分割實驗

**粗預測head **改變了Mask R-CNN的Mask head。首先從FPN的P2層通過雙線性插值的方法提取\(14\times14\)RoI特征,接着是\(2\times 2\)的卷積輸出尺寸\(7\times7\),最后兩個1024隱含層生成\(7\times7\)的K個類別的Mask粗預測。

PointRend 拼接兩部分特征:一個是從上述Mask粗預測特征插值提取的K維特征向量;另一個是從FPN的P2層插值提取的256維特征向量。使用3層隱含層進行預測,每一層又加上K維的粗預測特征作為補充。

訓練階段在粗預測特征中,根據各個點插值后的類別概率到0.5的距離進行選擇,距離越小越不確定。損失是針對所有點的二值交叉熵之和。另外,訓練階段box和mask分支並行,預測時候串行,還發現訓練時的串行不能提高性能。

預測階段對\(7\times7\)的預測細化5次至\(224\times224\)。選擇點的策略根據各點預測值與0.5的差絕對值。

1577086390657

1577087512064

語義分割實驗

在DeepLabV3和SematicFPN上做了實驗,實現細節基本與實例分割差不多,粗預測特征和細粒度特征對應語義結果和從backbone中特征。有一些細節不同,N = 8096;預測和訓練階段的不確定性估計都采用相同的策略:根據最高置信度和第二置信度之間的插值進行選擇點。

1577090075124

1577090097369


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM