2018_CVPR_Interactive Image Segmentation with Latent Diversity


基本信息

CVPR 2018

作者主頁李著文

Interactive Image Segmentation with Latent Diversity

筆記

  1. 主要研究內容是交互式圖像分割。偏重於圖像編輯應用領域。大概的理解,就是PS里面的魔棒什么的吧。

  2. 問題描述,用戶在一張圖片上點擊(選取正負樣本點),生成感興趣的分割目標。問題的特點是多模態的(multimodality),用戶的點擊,你不能確定他是想選中jacket,還是整個人?

  3. 本文的目標是,盡可能減少用戶的點擊,就能獲得一定滿意程度的目標分割實例。

  4. 整體的思路是:

    our approach trains a single feed-forward stream that generates diverse solutions and then selects among them.

    生成一系列的候選分割目標,然后從中間選擇一張的目標分割圖片。

    整體分成兩個步驟:

    • segmentation network (函數 \(f\))
      • 輸入:原始圖片\(X\),正負點擊點\(S_p\)\(S_n\),正負點擊距離轉換\(T_p\)\(T_n\),VGG提取后的特征。
      • 輸出:M個Segmentation Mask,像素值區間是[0,1]實數,連續的。
    • selection network (函數 \(g\))
      • 輸入:原始圖片\(X\),正負點擊點\(S_p\)\(S_n\),正負點擊距離轉換\(T_p\)\(T_n\),以及M個Segmentation Masks。
      • 輸出:從M個中選擇一個作為輸出。
  5. 關於Loss 函數
    Segmentation network使用的loss是作者自己構造的:

    \[L_f(\theta_f) = \sum_{i} { min_{m}\{l(Y_i,f_m(X_i;\theta))+l_c(S_p^i,S_n^i,f_m(X_i;\theta_f))\}} \]

    其中,

    \[l(A,B) = 1-\frac{\sum_pmin(A(p),B(p))}{\sum_p(A(p),B(p))}$$這是一個簡化版本(放寬限制)的Jaccard IoU距離。 $$l_c(S_p,S_n,B) = \parallel S_p \odot (S_p-B)\parallel_1+ \parallel S_n \odot (S_n-(1-B))\parallel_1\]

    其中\(\odot\)表示阿達馬元素乘積。其實就是統計預測正確的點有多少個,當然實際上不是這樣。
    值得注意的是

    也就是說A中值是離散的,而B中是連續的。
    selection network的 loss 函數是:

    \[L_g(\theta) = \sum_i\left (-g_{\phi_i}(Z_i;\theta_g)+log\sum_{m=1}^M exp (g_m(Z_i;\theta_g))\right) \]

    其中,$\phi_i $ 是mask的索引,用於最小化其和\(Y_i\)之間的Jaccard 距離。

  6. Segmentation network的設計主要參考Multi-Scale Context Aggregation by Dilated Convolutions,主要特點是空洞卷積獲得多尺度特征。主要結構如下:


    Selection network本質上是一個分類網絡,本文沿用上面的網絡結構,做了一些改變,第一層換成一個全局平均池化層,最后的全分辨率預測層,也增加一個全局平均池化層。

  7. 作者為什么使用一個選擇網路去從M(M=6)個mask中,選擇最后需要的解?作者是想過不同的設計方法,最初的設計就是,設計一個loss函數,作為分數函數,對每個結果進行打分,然后排序。這個方案作為了文章的baseline之一。

  8. 關於數據集。
    作者使用了

    + Semantic BoundariesDataset (SBD)  
    + GrabCut 
    + DAVIS 
    + Microsoft COCO 
    

    作者特別強調一點:

    Note that we do not train on GrabCut, DAVIS, or COCO. Our model is trained only once, on the SBD training set.

  9. 關於結果


    因為作者的目的是減少點擊次數,這個U-Net上面的數據貌似不是很好,添加這個Unet和CAN的縱向對比試驗,也就是說SBD和COCO上的數據集數據是怎么樣呢?都做了怎么多了,應該不差這倆個吧····

總結

這個整體方案還是第一次見到,用的網絡還是在其他網路的基礎上,做了小修改。

第一次接觸交互式任務。主要特點就在這仿真生成模擬點擊,在實際使用的過程中相當於增加了兩個通道,本文的相較於普通的圖像增加了四個通道。

關於交互式點擊模擬:

對於圖像大致方法就是采樣20次,之間關於分布概率的計算采用測地距離。第一次是根據mask進行正例的采樣,以后每次采樣都是從當前分類錯誤的集合\(\mathcal{O}'\)中采樣。每次采樣,都會刷新預測結果,影響下一次采樣。根據這個分布進行采樣,應該是盡量采樣那些較大塊未分類正確的區域,我的理解。(這塊不是很了解,歡迎討論。)


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM