這篇論文主要介紹了如何使用圖片級標注對像素級分割任務進行訓練。想法很簡單卻達到了比較好的效果。文中所提到的loss比較有啟發性。
大體思路:
首先同FCN一樣,這個網絡只有8層(5層VGG,3層全卷積)。不同的是由於圖片只有image-level的標注,所以輸出圖像的清晰度無法保證,所以沒有反卷積。圖片的分辨率很低很低,但這相對於我們的期望已經很好了。

FCN框圖
LOSS:
這個loss說明了很多道理,我們先貼原文:

我們只關注
1.該圖片中有label的dense output
2.含有該label的最大值
僅僅對這些label計算loss。
第一點還是挺有道理的,因為大多數標記並不是對全局進行的標記,我們有較大把握對這個圖里面有什么進行判斷,但對這個圖里面沒有什么卻沒有把握去判斷。
第二點意義我並不是很明確,感覺應該是一個訓練上的trick。如果對所有的正確的label進行backpropagation應該很容易過擬合或者輸出最大比例的label。可能今后在實踐中可以回答這個問題。
效果
雖然IOU挺低的,但是看圖的話覺得效果不錯。

IOU

