基本信息
CVPR 2018
作者主頁李著文
Interactive Image Segmentation with Latent Diversity
筆記
-
主要研究內容是交互式圖像分割。偏重於圖像編輯應用領域。大概的理解,就是PS里面的魔棒什么的吧。
-
問題描述,用戶在一張圖片上點擊(選取正負樣本點),生成感興趣的分割目標。問題的特點是多模態的(multimodality),用戶的點擊,你不能確定他是想選中jacket,還是整個人?
-
本文的目標是,盡可能減少用戶的點擊,就能獲得一定滿意程度的目標分割實例。
-
整體的思路是:
our approach trains a single feed-forward stream that generates diverse solutions and then selects among them.
生成一系列的候選分割目標,然后從中間選擇一張的目標分割圖片。
整體分成兩個步驟:
- segmentation network (函數 \(f\))
- 輸入:原始圖片\(X\),正負點擊點\(S_p\)和\(S_n\),正負點擊距離轉換\(T_p\)和\(T_n\),VGG提取后的特征。
- 輸出:M個Segmentation Mask,像素值區間是[0,1]實數,連續的。
- selection network (函數 \(g\))
- 輸入:原始圖片\(X\),正負點擊點\(S_p\)和\(S_n\),正負點擊距離轉換\(T_p\)和\(T_n\),以及M個Segmentation Masks。
- 輸出:從M個中選擇一個作為輸出。
- segmentation network (函數 \(f\))
-
關於Loss 函數
Segmentation network使用的loss是作者自己構造的:\[L_f(\theta_f) = \sum_{i} { min_{m}\{l(Y_i,f_m(X_i;\theta))+l_c(S_p^i,S_n^i,f_m(X_i;\theta_f))\}} \]其中,
\[l(A,B) = 1-\frac{\sum_pmin(A(p),B(p))}{\sum_p(A(p),B(p))}$$這是一個簡化版本(放寬限制)的Jaccard IoU距離。 $$l_c(S_p,S_n,B) = \parallel S_p \odot (S_p-B)\parallel_1+ \parallel S_n \odot (S_n-(1-B))\parallel_1\]其中\(\odot\)表示阿達馬元素乘積。其實就是統計預測正確的點有多少個,當然實際上不是這樣。
值得注意的是
也就是說A中值是離散的,而B中是連續的。
selection network的 loss 函數是:\[L_g(\theta) = \sum_i\left (-g_{\phi_i}(Z_i;\theta_g)+log\sum_{m=1}^M exp (g_m(Z_i;\theta_g))\right) \]其中,$\phi_i $ 是mask的索引,用於最小化其和\(Y_i\)之間的Jaccard 距離。
-
Segmentation network的設計主要參考Multi-Scale Context Aggregation by Dilated Convolutions,主要特點是空洞卷積獲得多尺度特征。主要結構如下:
Selection network本質上是一個分類網絡,本文沿用上面的網絡結構,做了一些改變,第一層換成一個全局平均池化層,最后的全分辨率預測層,也增加一個全局平均池化層。 -
作者為什么使用一個選擇網路去從M(M=6)個mask中,選擇最后需要的解?作者是想過不同的設計方法,最初的設計就是,設計一個loss函數,作為分數函數,對每個結果進行打分,然后排序。這個方案作為了文章的baseline之一。
-
關於數據集。
作者使用了+ Semantic BoundariesDataset (SBD) + GrabCut + DAVIS + Microsoft COCO
作者特別強調一點:
Note that we do not train on GrabCut, DAVIS, or COCO. Our model is trained only once, on the SBD training set.
-
關於結果
因為作者的目的是減少點擊次數,這個U-Net上面的數據貌似不是很好,添加這個Unet和CAN的縱向對比試驗,也就是說SBD和COCO上的數據集數據是怎么樣呢?都做了怎么多了,應該不差這倆個吧····
總結
這個整體方案還是第一次見到,用的網絡還是在其他網路的基礎上,做了小修改。
第一次接觸交互式任務。主要特點就在這仿真生成模擬點擊,在實際使用的過程中相當於增加了兩個通道,本文的相較於普通的圖像增加了四個通道。
關於交互式點擊模擬:
對於圖像大致方法就是采樣20次,之間關於分布概率的計算采用測地距離。第一次是根據mask進行正例的采樣,以后每次采樣都是從當前分類錯誤的集合\(\mathcal{O}'\)中采樣。每次采樣,都會刷新預測結果,影響下一次采樣。根據這個分布進行采樣,應該是盡量采樣那些較大塊未分類正確的區域,我的理解。(這塊不是很了解,歡迎討論。)