MaskLab: Instance Segmentation by Refining Object Detection with Semantic and Direction Features
這是一篇2018年cvpr關於實例分割的網絡模型,模型主要有三個輸出:邊界框、語義分割、方向預測。
整體框架
整個模型使用ResNet-101作為特征提取器,構建於Faster-RCNN之上。使用Faster-RCNN檢測到目標框之后,使用相應的類別選取對應的語義通道並裁剪,接着結合方向預測再通過1x1的卷積得到粗分割掩碼。
語義和方向特征
Masklab最核心的地方是使用了方向特征。目標檢測和語義分割可以用於不同類別的實例分割,方向特征則用於同一類別的實例分割,如同一邊框中重疊的人。方向預測對數用於預測每個像素相對於它對應的實例中心的方向,進而用於分割同樣語義標簽的實例。
掩碼精細化
這部分工作感覺就是錦上添花的東西。使用額外的幾個卷積層組成的網絡使用一種hypercolumn特征得到精細化的分割結果。