論文閱讀|PointRend: Image Segmentation as Rendering

本文轉載自查看原文 2019-12-23 16:59 1958 論文閱讀/ 語義分割/ 實例分割/ 研讀

標題：PointRend: Image Segmentation as Rendering

鏈接：http://arxiv.org/abs/1912.08193

概要

論文要解決的是圖像分割質量問題，往往圖像分割在物體邊界處的分割質量很差，不能細致的分割出每個細節。因此作者提出了針對目標輪廓進行細化預測的一個模型：PointRend，其思想是以迭代的方式細化從目標輪廓區域選擇的點的分割預測，從而提升目標輪廓分割質量。提出的模型適用於實例分割和語義分割，能預測清晰的目標輪廓，同時也提升了相應的分割精度。如下圖，每一步對平滑區域進行雙線性上采樣，對那些有可能是物體邊界的少量點進行高分辨率預測。

1577001623604

作者認為圖像或者特征這種規則的像素網格在進行預測時，不可避免的在平滑區域過采樣，在物體輪廓欠采樣。個人理解是將預測的低分辨率特征上采樣到原始尺寸時，平滑區域像素較多而輪廓邊緣的像素較少，所以造成在平滑區域得到很好的預測，而在目標輪廓的預測卻很不精細。

方法

PointRend模塊包含3個部分：（1）點選擇策略（預測和訓練時的策略不同），對少量選擇的點預測其在高分辨率圖中的類別；（2）對選擇的每個點的特征表示。（3）point head。根據每個點的特征表示預測類別標簽

1577003174935

首先是每個點的特征表示。將兩種不同的特征（細粒度特征和粗預測特征）拼接作為每個點的特征表示。個人理解這些點是從粗預測中選擇得到，然后映射到細粒度特征圖中，如上圖。細粒度特征圖是原圖尺寸，對每一個映射的點采用雙線性插值得到對應點的細粒度特征，提取出的是多通道單個點的特征，細粒度特征具有物體的細節信息。粗預測特征對於實例分割來說是從RoI特征經過預測得到的K類別Mask中進行插值提取。粗預測特征提供更多的上下文信息，同時表達語義類別。最后拼接作為每個點的最終特征表示。

然后是Point Head。給定每個點的特征表示，采用MLP進行分割預測，預測點的類別標簽。

最后看選擇策略。如下圖所示，預測階段每一次迭代選擇N個最不確定的點（比如置信度接近0.5的點）計算特征表示，然后預測標簽。

1577024851400

訓練階段的策略與預測階段不同，如下圖所示。有三個原則：（1）生成更多的點：以均勻分布取kN個點(k>1)。（2）關注於那些不確定的粗預測點，通過對kN個點進行插值並計算了一個針對特定任務的不確定性估計，然后選擇最不確定的\(\beta\)N個點（3）剩下的\(1-\beta\)個點從均勻分布中選取。這種策略更偏重於那些不確定的區域，也就是物體輪廓。

1577026737002

實例分割實驗

**粗預測head **改變了Mask R-CNN的Mask head。首先從FPN的P2層通過雙線性插值的方法提取\(14\times14\)RoI特征，接着是\(2\times 2\)的卷積輸出尺寸\(7\times7\)，最后兩個1024隱含層生成\(7\times7\)的K個類別的Mask粗預測。

PointRend 拼接兩部分特征：一個是從上述Mask粗預測特征插值提取的K維特征向量；另一個是從FPN的P2層插值提取的256維特征向量。使用3層隱含層進行預測，每一層又加上K維的粗預測特征作為補充。

訓練階段在粗預測特征中，根據各個點插值后的類別概率到0.5的距離進行選擇，距離越小越不確定。損失是針對所有點的二值交叉熵之和。另外，訓練階段box和mask分支並行，預測時候串行，還發現訓練時的串行不能提高性能。

預測階段對\(7\times7\)的預測細化5次至\(224\times224\)。選擇點的策略根據各點預測值與0.5的差絕對值。

1577086390657

1577087512064

語義分割實驗

在DeepLabV3和SematicFPN上做了實驗，實現細節基本與實例分割差不多，粗預測特征和細粒度特征對應語義結果和從backbone中特征。有一些細節不同，N = 8096；預測和訓練階段的不確定性估計都采用相同的策略：根據最高置信度和第二置信度之間的插值進行選擇點。

1577090075124

1577090097369

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 論文閱讀筆記十一：Rethinking Atrous Convolution for Semantic Image Segmentation（DeepLabv3)(CVPR2017) 論文閱讀筆記八：SegNet: A Deep Convolutional Encoder-Decoder Architecture for Image Segmentation (IEEE2017) Structure Boundary Preserving Segmentation for Medical Image with Ambiguous Boundary(CVPR 2020)論文閱讀筆記論文閱讀|YOLACT: Real-time Instance Segmentation Semantic Segmentation -- (DeepLabv3)Rethinking Atrous Convolution for Semantic Image Segmentation論文解 Controllable Text-to-Image Generation 論文閱讀筆記【論文閱讀】Between-class Learning for Image Classification 論文筆記（6）：Weakly-and Semi-Supervised Learning of a Deep Convolutional Network for Semantic Image Segmentation 論文閱讀|Decoders Matter for Semantic Segmentation：Data-Dependent Decoding Enables Flexible Feature Aggregation 論文閱讀：Semi-Supervised Semantic Segmentation with Cross-Consistency Training