這篇文章的主要貢獻點在於:
1.實驗證明僅僅利用圖像整體的弱標簽很難訓練出很好的分割模型;
2.可以利用bounding box來進行訓練,並且得到了較好的結果,這樣可以代替用pixel-level訓練中的ground truth;
3.當我們用少量的pixel-level annotations和大量的圖像整體的弱標簽來進行半監督學習時,其訓練效果可和全部使用pixel-level annotations差不多;
4.利用額外的強弱標簽可以進一步提高效果。
這是用image-level labels來做的,通過圖像的標簽對每個像素進行處理,如果該像素的用CNN得到的score map中有該圖像標簽,則對m位置處的CNN輸出做調整並選取其中的最大值作為最新標簽,然后用M步中的批量梯度下降法得到新的CNN參數(這個步驟和之前用pixel-level做是一樣的),不再需要人工來做大量的工作進行像素級的標定。但是這種方法不太准確,所以用像素級的一部分標簽加上圖像的標簽來進行訓練。
這篇文章在DeepLab的基礎上進一步研究了使用bounding box和image-level labels作為標記的訓練數據。使用了期望值最大化算法(EM)來估計未標記的像素的類別和CNN的參數。

對於image-level標記的數據,我們可以觀測到圖像的像素值
和圖像級別的標記
,但是不知道每個像素的標號
,因此把
當做隱變量。使用如下的概率圖模式:

使用EM算法估計
和
。E步驟是固定
求
的期望值,M步驟是固定
使用SGD計算
。

對於給出bounding box標記的訓練圖像,該方法先使用CRF對該訓練圖像做自動分割,然后在分割的基礎上做全監督學習。通過實驗發現,單純使用圖像級別的標記得到的分割效果較差,但是使用bounding box的訓練數據可以得到較好的結果,在VOC2012 test數據集上得到mIoU 62.2%。另外如果使用少量的全標記圖像和大量的弱標記圖像進行結合,可以得到與全監督學習(70.3%)接近的分割結果(69.0%)。
