2018_CVPR_Interactive Image Segmentation with Latent Diversity

本文轉載自查看原文 2018-05-13 21:51 1109

基本信息

CVPR 2018

作者主頁李著文

Interactive Image Segmentation with Latent Diversity

筆記

主要研究內容是交互式圖像分割。偏重於圖像編輯應用領域。大概的理解，就是PS里面的魔棒什么的吧。
問題描述，用戶在一張圖片上點擊（選取正負樣本點），生成感興趣的分割目標。問題的特點是多模態的（multimodality），用戶的點擊，你不能確定他是想選中jacket，還是整個人？
本文的目標是，盡可能減少用戶的點擊，就能獲得一定滿意程度的目標分割實例。
整體的思路是：

our approach trains a single feed-forward stream that generates diverse solutions and then selects among them.

生成一系列的候選分割目標，然后從中間選擇一張的目標分割圖片。

整體分成兩個步驟：
- segmentation network (函數 $f$)
  - 輸入：原始圖片$X$,正負點擊點$S_p$和$S_n$,正負點擊距離轉換$T_p$和$T_n$,VGG提取后的特征。
  - 輸出：M個Segmentation Mask，像素值區間是[0,1]實數，連續的。
- selection network (函數 $g$)
  - 輸入：原始圖片$X$,正負點擊點$S_p$和$S_n$,正負點擊距離轉換$T_p$和$T_n$,以及M個Segmentation Masks。
  - 輸出：從M個中選擇一個作為輸出。
關於Loss 函數
Segmentation network使用的loss是作者自己構造的：

\[L_f(\theta_f) = \sum_{i} { min_{m}\{l(Y_i,f_m(X_i;\theta))+l_c(S_p^i,S_n^i,f_m(X_i;\theta_f))\}} \]
其中，

\[l(A,B) = 1-\frac{\sum_pmin(A(p),B(p))}{\sum_p(A(p),B(p))}$$這是一個簡化版本（放寬限制）的Jaccard IoU距離。 $$l_c(S_p,S_n,B) = \parallel S_p \odot (S_p-B)\parallel_1+ \parallel S_n \odot (S_n-(1-B))\parallel_1\]
其中$\odot$表示阿達馬元素乘積。其實就是統計預測正確的點有多少個，當然實際上不是這樣。
值得注意的是

也就是說A中值是離散的，而B中是連續的。
selection network的 loss 函數是：

\[L_g(\theta) = \sum_i\left (-g_{\phi_i}(Z_i;\theta_g)+log\sum_{m=1}^M exp (g_m(Z_i;\theta_g))\right) \]
其中，$\phi_i $ 是mask的索引，用於最小化其和$Y_i$之間的Jaccard 距離。
Segmentation network的設計主要參考Multi-Scale Context Aggregation by Dilated Convolutions,主要特點是空洞卷積獲得多尺度特征。主要結構如下：

Selection network本質上是一個分類網絡，本文沿用上面的網絡結構，做了一些改變，第一層換成一個全局平均池化層，最后的全分辨率預測層，也增加一個全局平均池化層。
作者為什么使用一個選擇網路去從M（M=6）個mask中，選擇最后需要的解？作者是想過不同的設計方法，最初的設計就是，設計一個loss函數，作為分數函數，對每個結果進行打分，然后排序。這個方案作為了文章的baseline之一。
關於數據集。
作者使用了
```
+ Semantic BoundariesDataset (SBD)  
+ GrabCut 
+ DAVIS 
+ Microsoft COCO 
```
作者特別強調一點：

Note that we do not train on GrabCut, DAVIS, or COCO. Our model is trained only once, on the SBD training set.
關於結果

因為作者的目的是減少點擊次數，這個U-Net上面的數據貌似不是很好，添加這個Unet和CAN的縱向對比試驗，也就是說SBD和COCO上的數據集數據是怎么樣呢？都做了怎么多了，應該不差這倆個吧····

總結

這個整體方案還是第一次見到，用的網絡還是在其他網路的基礎上，做了小修改。

第一次接觸交互式任務。主要特點就在這仿真生成模擬點擊，在實際使用的過程中相當於增加了兩個通道，本文的相較於普通的圖像增加了四個通道。

關於交互式點擊模擬：

對於圖像大致方法就是采樣20次，之間關於分布概率的計算采用測地距離。第一次是根據mask進行正例的采樣，以后每次采樣都是從當前分類錯誤的集合$\mathcal{O}'$中采樣。每次采樣，都會刷新預測結果，影響下一次采樣。根據這個分布進行采樣，應該是盡量采樣那些較大塊未分類正確的區域，我的理解。（這塊不是很了解，歡迎討論。）

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 論文閱讀筆記五：U-Net: Convolutional Networks for Biomedical Image Segmentation(CVPR2015) 【論文筆記】Learning to Estimate 3D Human Pose and Shape from a Single Color Image(CVPR 2018) 論文閱讀筆記十：DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution, and Fully Connected CRFs (DeepLabv2)(CVPR2016) 論文閱讀筆記六十六:Wide Activation for Efficient and Accurate Image Super-Resolution(CVPR2018) Context Prior for Scene Segmentation(CVPR 2020)論文閱讀筆記 [交互式分割]Interactive Object Segmentation with Inside-Outside Guidance CVPR2018 單目標跟蹤部分論文單目標跟蹤CVPR 2018 ECO+ 論文閱讀筆記六：FCN：Fully Convolutional Networks for Semantic Segmentation(CVPR2015) 論文閱讀筆記二十：LinkNet: Exploiting Encoder Representations for Efﬁcient Semantic Segmentation(CVPR2017)